JP2013105295A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2013105295A JP2013105295A JP2011248369A JP2011248369A JP2013105295A JP 2013105295 A JP2013105295 A JP 2013105295A JP 2011248369 A JP2011248369 A JP 2011248369A JP 2011248369 A JP2011248369 A JP 2011248369A JP 2013105295 A JP2013105295 A JP 2013105295A
- Authority
- JP
- Japan
- Prior art keywords
- documents
- word
- sentence
- document
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】制御部は、検索キーワードに基づいて検索された複数の電子文書からなるクラスタの特徴を表す主成分ベクトルを算出する(S104)。また、制御部は、上記クラスタに属する複数の文書において検索キーワードと係り受け関係にある注目単語、を含む文書を検索する(S108)。そして、制御部は、検索した文書それぞれから注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における注目単語との構文的距離を算出するとともに、構文的距離に基づいて、検索した文書それぞれの特徴ベクトルを算出する(S109)。そして、制御部は、検索した文書のうち、その特徴ベクトルが上記クラスタの主成分ベクトルと類似する文書を特定する(S111)。
【選択図】図4
Description
Claims (5)
- 所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段と、
前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段と、
前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、
前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、
前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段と、
前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段と、
前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、
前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、
を含む情報処理装置。 - 前記第1特徴ベクトル算出手段は、
前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、
前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むこと、
を特徴とする請求項1に記載の情報処理装置。 - 前記第1特徴ベクトル算出手段は、
前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、
前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、
を特徴とする請求項2に記載の情報処理装置。 - 前記第1算出手段は、
前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、
前記第1特徴ベクトル算出手段は、
前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、
前記主成分ベクトル算出手段は、
前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、
前記検索手段は、
前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、
前記第2算出手段は、
前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、
前記第2特徴ベクトル算出手段は、
前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、
前記特定手段は、
前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、
前記出力制御手段は、
前記特定手段により特定された文書及び他の文書を出力手段に出力させ、
前記出力制御手段は、
前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、
を特徴とする請求項1に記載の情報処理装置。 - 所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段、
前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段、
前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、
前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、
前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段、
前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段、
前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、
前記特定手段により特定された文書を出力手段に出力させる出力制御手段、
としてコンピュータを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011248369A JP5834795B2 (ja) | 2011-11-14 | 2011-11-14 | 情報処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011248369A JP5834795B2 (ja) | 2011-11-14 | 2011-11-14 | 情報処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013105295A true JP2013105295A (ja) | 2013-05-30 |
JP5834795B2 JP5834795B2 (ja) | 2015-12-24 |
Family
ID=48624793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011248369A Expired - Fee Related JP5834795B2 (ja) | 2011-11-14 | 2011-11-14 | 情報処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5834795B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类系统及方法 |
KR101713487B1 (ko) * | 2015-10-08 | 2017-03-07 | 한국교육과정평가원 | 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램 |
CN110287396A (zh) * | 2019-05-07 | 2019-09-27 | 清华大学 | 文本匹配方法及装置 |
CN110543549A (zh) * | 2019-08-30 | 2019-12-06 | 北京百分点信息科技有限公司 | 语义等价性判断方法和装置 |
US10635897B2 (en) | 2017-10-25 | 2020-04-28 | Kabushiki Kaisha Toshiba | Document understanding support apparatus, document understanding support method, non-transitory storage medium |
JP6689466B1 (ja) * | 2019-01-31 | 2020-04-28 | 三菱電機株式会社 | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
CN112559691A (zh) * | 2020-12-22 | 2021-03-26 | 珠海格力电器股份有限公司 | 语义相似度的确定方法及确定装置、电子设备 |
-
2011
- 2011-11-14 JP JP2011248369A patent/JP5834795B2/ja not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类系统及方法 |
KR101713487B1 (ko) * | 2015-10-08 | 2017-03-07 | 한국교육과정평가원 | 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램 |
US10635897B2 (en) | 2017-10-25 | 2020-04-28 | Kabushiki Kaisha Toshiba | Document understanding support apparatus, document understanding support method, non-transitory storage medium |
JP6689466B1 (ja) * | 2019-01-31 | 2020-04-28 | 三菱電機株式会社 | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
WO2020157887A1 (ja) * | 2019-01-31 | 2020-08-06 | 三菱電機株式会社 | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム |
CN110287396A (zh) * | 2019-05-07 | 2019-09-27 | 清华大学 | 文本匹配方法及装置 |
CN110287396B (zh) * | 2019-05-07 | 2021-08-03 | 清华大学 | 文本匹配方法及装置 |
CN110543549A (zh) * | 2019-08-30 | 2019-12-06 | 北京百分点信息科技有限公司 | 语义等价性判断方法和装置 |
CN110543549B (zh) * | 2019-08-30 | 2022-02-22 | 北京百分点科技集团股份有限公司 | 语义等价性判断方法和装置 |
CN112559691A (zh) * | 2020-12-22 | 2021-03-26 | 珠海格力电器股份有限公司 | 语义相似度的确定方法及确定装置、电子设备 |
CN112559691B (zh) * | 2020-12-22 | 2023-11-14 | 珠海格力电器股份有限公司 | 语义相似度的确定方法及确定装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5834795B2 (ja) | 2015-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496928B2 (en) | Non-factoid question-answering system and method | |
JP5834795B2 (ja) | 情報処理装置及びプログラム | |
Bagheri et al. | Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
US9471559B2 (en) | Deep analysis of natural language questions for question answering system | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
US20100205198A1 (en) | Search query disambiguation | |
US9734238B2 (en) | Context based passage retreival and scoring in a question answering system | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
KR101508070B1 (ko) | 어휘지도를 이용한 용언의 다의어 의미 분석 방법 | |
JP6260294B2 (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
US20130304471A1 (en) | Contextual Voice Query Dilation | |
US20220180317A1 (en) | Linguistic analysis of seed documents and peer groups | |
JP2011118689A (ja) | 検索方法及びシステム | |
US20120317125A1 (en) | Method and apparatus for identifier retrieval | |
Rodrigues et al. | Advanced applications of natural language processing for performing information extraction | |
Duck et al. | Ambiguity and variability of database and software names in bioinformatics | |
KR101375221B1 (ko) | 의료 프로세스 모델링 및 검증 방법 | |
Zou et al. | Assessing software quality through web comment search and analysis | |
WO2018220688A1 (ja) | 辞書生成装置、辞書生成方法、及びプログラム | |
KR20120070713A (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
Quarteroni et al. | Evaluating Multi-focus Natural Language Queries over Data Services. | |
CN110929501B (zh) | 文本分析方法和装置 | |
Kaur et al. | A roadmap of sentiment analysis and its research directions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5834795 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |