JP7168334B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP7168334B2 JP7168334B2 JP2018051910A JP2018051910A JP7168334B2 JP 7168334 B2 JP7168334 B2 JP 7168334B2 JP 2018051910 A JP2018051910 A JP 2018051910A JP 2018051910 A JP2018051910 A JP 2018051910A JP 7168334 B2 JP7168334 B2 JP 7168334B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- relation
- words
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 27
- 238000003672 processing method Methods 0.000 title claims description 5
- 239000013598 vector Substances 0.000 claims description 122
- 238000000034 method Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 238000012706 support-vector machine Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、実施形態に係る情報処理装置30の構成および使用環境の一例を示す図である。図示する環境では、端末装置10、サービスサーバ20及び情報処理装置30は、ネットワークNWを介して互いに通信する。図1に示す例では、端末装置10の数は、N(Nは、1以上の整数)個である。
素性の一つとして、判定部330は、コサイン類似度を算出する。まず、判定部330は、式(1)に基づいて、第1類似度を導出する。式中、V_queryは、第一ワードベクトルを表す。V_candidateは、第二ワードベクトルを表す。V_centroidは、代表リレーションベクトルのうち選択された一つを表す。「*」は、ベクトルの積を表す。式(1)に示すSim1は、図3に示す関係を、どの程度満たしているかを示す指標値である。
素性2について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、レーベンシュタイン距離を用いる。レーベンシュタイン距離は、二つの文字列がどの程度異なっているかを距離で示す素性である。具体的には、1文字の挿入、削除及び置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数である。また、これらの操作には別のコストを割り振ることが可能である。また、第一ワード及び第二ワードそのものだけでなく、これらにルビを振った後の読み方についてのレーベンシュタイン距離を素性の一部としてもよい。
素性3について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、圧縮率を導出する。
素性4について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、共有接頭辞を導出する。共有接頭語は、文字列の先頭がどの程度異なっているかを示す素性である。
素性5について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、互いに包含される単語をカウントする。包含される単語は、第一ワード又は第二ワードが他方のワード内に文字列が完全に包含されている単語である。
素性6について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、検索頻度率を導出する。検索頻度率は、第一ワード及び第二ワードを用いて、検索が行われた回数に応じた重みである。
素性7について説明する。素性の一つとして、重み付与部340は、重み付き部分類似度Scoreを導出する。重み付与部340は、第一ワードと第二ワードをそれぞれ品詞に分解し、式(4)に示すように、品詞重みScorePOSiと、操作種類重みWoperationと、位置重みWpositionとに基づいて、重み付き類似度Scoreを導出する。式中、nは一致させるために必要な操作(削除、挿入、入れ替え)の回数である。重み付き類似度Scoreは、ゼロに小さい方が、類似している可能性が高いことを示すものである。
式(1)では、第一ベクトルを示すクエリベクトルと代表リレーションベクトルの差分と、第二ベクトルを示す候補ベクトルとを乗算している。このとき、クエリベクトルと代表リレーションベクトルの差は、候補ベクトルを用いて算出すると、クエリベクトルと候補ベクトルの差分からリレーションベクトルを得ることができる。このため、算出したリレーションベクトルと、代表リレーションベクトルとの類似度を求めればよいため、以下の式(5)が成り立つ。つまり、式(1)は、式(5)として表すこともできる。
20…サービスサーバ
30…情報処理装置
200…検索実行部
210…記憶部
212…クエリログ
214…辞書データ
300…取得部
310…ワードベクトル生成部
320…代表リレーションベクトル取得部
330…判定部
340…重み付与部
350…類義語登録部
360…類義語記憶部
Claims (9)
- 処理対象となる複数のワードを取得する取得部と、
前記複数のワードに含まれる第一ワードおよび第二ワードをそれぞれベクトル化した第一ワードベクトルおよび第二ワードベクトルと、互いに類義語の関係にあることが既知の二つのワードのワードベクトル間の差分であるリレーションベクトルを代表する一以上の代表リレーションベクトルのうち一つの代表リレーションベクトルとに基づいて計算された指標値が大きいほど、前記一つの代表リレーションベクトルとの関係において前記第一ワードと前記第二ワードが類義語の関係にあると判定する判定部と、を備え、
前記一以上の代表リレーションベクトルは、前記リレーションベクトルを設定した所定数のクラスタにクラスタリングすることによって得られたクラスタの重心ベクトルである、
情報処理装置。 - 前記判定部は、前記第一ワードベクトルと前記代表リレーションベクトルとの差分に、前記第二ワードベクトルを乗算した値が大きいほど、前記第一ワードと前記第二ワードが類義語の関係にあると判定する、
請求項1記載の情報処理装置。 - 前記判定部は、更に、前記第一ワードベクトルと前記第二ワードベクトルを乗算した値に基づいて、前記第一ワードと前記第二ワードが類義語の関係にあるか否かを判定する、 請求項1又は2に記載の情報処理装置。
- 前記判定部は、前記第一ワードベクトルと前記代表リレーションベクトルとの差分に、前記第二ワードベクトルを乗算した値と、前記第一ワードベクトルと前記第二ワードベクトルを乗算した値との加重和が大きいほど、前記第一ワードと前記第二ワードが類義語の関係にあると判定する、
請求項3項記載の情報処理装置。 - 前記判定部は、更に、第一ワードと第二ワードを構成する文字を、順序と合わせて一致させるために行う挿入操作、削除操作、又は入れ替え操作の対象となる品詞のそれぞれにおける、品詞種別、操作量、および位置に基づいて、前記第一ワードと前記第二ワードが類義語の関係にあるか否かを判定する、
請求項1から4のうちいずれか1項記載の情報処理装置。 - 前記第一ワード及び前記第二ワードに基づいて計算された、前記第一ワード及び前記第二ワードの類似度を表す値を用いた機械学習を行って、判定対象となる第一ワードと第二ワードが類義語の関係にあるか否かを判定する、
請求項1から5のうちいずれか1項記載の情報処理装置。 - 前記判定部により、前記第一ワード及び前記第二ワードが類義語であると判定された場合、前記第一ワード及び前記第二ワードのペアを辞書データに登録する類義語登録部を更に備える、
請求項1から6のうちいずれか1項記載の情報処理装置。 - コンピュータが、
処理対象となる複数のワードを取得し、
前記複数のワードに含まれる第一ワードおよび第二ワードをそれぞれベクトル化した第一ワードベクトルおよび第二ワードベクトルと、互いに類義語の関係にあることが既知の二つのワードのワードベクトル間の差分であるリレーションベクトルを代表する一以上の代表リレーションベクトルのうち一つの代表リレーションベクトルとに基づいて計算された指標値が大きいほど、前記一つの代表リレーションベクトルとの関係において前記第一ワードと前記第二ワードが類義語の関係にあると判定し、
前記一以上の代表リレーションベクトルは、前記リレーションベクトルを設定した所定数のクラスタにクラスタリングすることによって得られたクラスタの重心ベクトルである、
情報処理方法。 - コンピュータに、
処理対象となる複数のワードを取得させ、
前記複数のワードに含まれる第一ワードおよび第二ワードをそれぞれベクトル化した第一ワードベクトルおよび第二ワードベクトルと、互いに類義語の関係にあることが既知の二つのワードのワードベクトル間の差分であるリレーションベクトルを代表する一以上の代表リレーションベクトルのうち一つの代表リレーションベクトルとに基づいて計算された指標値が大きいほど、前記一つの代表リレーションベクトルとの関係において前記第一ワードと前記第二ワードが類義語の関係にあると判定させ、
前記一以上の代表リレーションベクトルは、前記リレーションベクトルを設定した所定数のクラスタにクラスタリングすることによって得られたクラスタの重心ベクトルである、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018051910A JP7168334B2 (ja) | 2018-03-20 | 2018-03-20 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018051910A JP7168334B2 (ja) | 2018-03-20 | 2018-03-20 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019164577A JP2019164577A (ja) | 2019-09-26 |
JP7168334B2 true JP7168334B2 (ja) | 2022-11-09 |
Family
ID=68064411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018051910A Active JP7168334B2 (ja) | 2018-03-20 | 2018-03-20 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7168334B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021240686A1 (ja) | 2020-05-27 | 2021-12-02 | 日本電信電話株式会社 | 処理装置、処理方法および処理プログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001243230A (ja) | 2000-02-25 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 類似性判別方法 |
JP2011118526A (ja) | 2009-12-01 | 2011-06-16 | Hitachi Ltd | 単語意味関係抽出装置 |
JP2013016011A (ja) | 2011-07-04 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | 同義語辞書生成装置、その方法、及びプログラム |
JP2013109597A (ja) | 2011-11-21 | 2013-06-06 | Panasonic Corp | 医用同義語辞書作成装置および医用同義語辞書作成方法 |
JP2014006620A (ja) | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
US20140249799A1 (en) | 2013-03-04 | 2014-09-04 | Microsoft Corporation | Relational similarity measurement |
-
2018
- 2018-03-20 JP JP2018051910A patent/JP7168334B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001243230A (ja) | 2000-02-25 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 類似性判別方法 |
JP2011118526A (ja) | 2009-12-01 | 2011-06-16 | Hitachi Ltd | 単語意味関係抽出装置 |
JP2013016011A (ja) | 2011-07-04 | 2013-01-24 | Nippon Telegr & Teleph Corp <Ntt> | 同義語辞書生成装置、その方法、及びプログラム |
JP2013109597A (ja) | 2011-11-21 | 2013-06-06 | Panasonic Corp | 医用同義語辞書作成装置および医用同義語辞書作成方法 |
JP2014006620A (ja) | 2012-06-22 | 2014-01-16 | Yahoo Japan Corp | 同義語推定装置、同義語推定方法および同義語推定プログラム |
US20140249799A1 (en) | 2013-03-04 | 2014-09-04 | Microsoft Corporation | Relational similarity measurement |
Non-Patent Citations (1)
Title |
---|
齋藤邦子,外3名,誤字脱字や伏字を許容する近似辞書照合技術,言語処理学会第17回年次大会発表論文集,言語処理学会,2011年03月,p.1143~1146 |
Also Published As
Publication number | Publication date |
---|---|
JP2019164577A (ja) | 2019-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200184275A1 (en) | Method and system for generating and correcting classification models | |
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US9104979B2 (en) | Entity recognition using probabilities for out-of-collection data | |
CN108319627B (zh) | 关键词提取方法以及关键词提取装置 | |
TWI512502B (zh) | 用於產生習慣語言模式之方法及系統及相關之電腦程式產品 | |
US9183285B1 (en) | Data clustering system and methods | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN103678316B (zh) | 实体关系分类装置和实体关系分类方法 | |
CN111400493A (zh) | 基于槽位相似度的文本匹配方法、装置、设备及存储介质 | |
JP2005122533A (ja) | 質問応答システムおよび質問応答処理方法 | |
JP2021111367A (ja) | Api評価のための自動パラメータ値解決 | |
JP2011141801A (ja) | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム | |
CN112633000B (zh) | 一种文本中实体的关联方法、装置、电子设备及存储介质 | |
JP2010225135A (ja) | 多義性解消方法とそのシステム | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN111797245B (zh) | 基于知识图谱模型的信息匹配方法及相关装置 | |
CN113392305A (zh) | 关键词的提取方法及装置、电子设备、计算机存储介质 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN116821299A (zh) | 智能问答方法、智能问答装置、设备及存储介质 | |
US20170124090A1 (en) | Method of discovering and exploring feature knowledge | |
JP7168334B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN106294689B (zh) | 一种基于文本类特征选择进行降维的方法和装置 | |
JP2005149014A (ja) | 文書関連語彙獲得方法及び装置及びプログラム | |
JP2019148933A (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
US20160085760A1 (en) | Method for in-loop human validation of disambiguated features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211224 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220805 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220805 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220819 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221027 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7168334 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |