JP6584361B2 - キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム - Google Patents
キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム Download PDFInfo
- Publication number
- JP6584361B2 JP6584361B2 JP2016088358A JP2016088358A JP6584361B2 JP 6584361 B2 JP6584361 B2 JP 6584361B2 JP 2016088358 A JP2016088358 A JP 2016088358A JP 2016088358 A JP2016088358 A JP 2016088358A JP 6584361 B2 JP6584361 B2 JP 6584361B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- matrix
- text
- relationship matrix
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 44
- 239000011159 matrix material Substances 0.000 claims description 108
- 238000000034 method Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000002344 surface layer Substances 0.000 description 49
- 238000004458 analytical method Methods 0.000 description 23
- 238000003860 storage Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態に係るキーワード抽出装置1は、記憶部及び制御部の他、通信部及び入出力デバイスなどの各種インタフェースを備えたサーバ装置又はPC(Personal Computer)などの情報処理装置(コンピュータ)である。
具体的には、キーワード抽出装置1は、テキストから抽出した表層KWに対して、事前に構築した大量のキーワード集合から意味を表す概念へのリンクを記述したコーパスデータ(概念リンクコーパス)を利用して、複数の意味KW候補それぞれの信頼度を計算する。キーワード抽出装置1は、この信頼度に基づいて、表層KWに対応する意味KWを特定する。
キーワード抽出装置1は、概念リンクコーパスとして、後述の関係行列を格納した記憶装置2と接続されている。また、記憶装置2は、解析装置3と接続され、解析装置3により関係行列が構築される。
なお、本処理システムの構成は一例であり、キーワード抽出装置1は、記憶装置2及び解析装置3のいずれか一方又は両方を含む構成であってもよい。
解析装置3は、まず、リンク先である見出し語(意味KW)と、リンク元である言い換え語(関係KW)との関連度合いを数値化した関係マトリクスを生成する。代表的な関係マトリクスとしては、非特許文献1で説明されているESAマトリクスがある。以後、この関係マトリクスにESAマトリクスを採用した例を説明するが、意味KWと関係KWとの関連度を記載したマトリクスであれば、他のマトリクスも関係マトリクスとして採用可能である。具体的には、ESAマトリクスを生成する解析装置3は、例えばウィキペディアなどのウェブサイトであれば、サイト内のリンク構造に基づいて、文書内に存在するリンク関係を表現する語句を抜き出す。リンク関係は、見出し語とこの見出し語の言い換え語との対になっている。さらに、解析装置3では、言い換え語の頻度情報に基づくTF−IDF値が計算され、この値に基づいて、意味KWと、関係KWとの関連度合いを要素としたESAマトリクスが生成される。
ここで、ESAマトリクスにおける各関係KWの行は、意味KW毎の確率分布として正規化されてよい。
(関係行列生成例1)
解析装置3は、見出し語と見出し語の内容説明とが対になっている表層−意味KWsコーパス辞書を作成し、ESAマトリクスに統合すなわち表層KWの行を追加し、関係KWと追加した表層KWとを合わせて新たな表層KWとする。
また、解析装置3は、言語解析処理で構文解析を行い、意味的に同等である箇所を同定して抜き出してもよい。
解析装置3は、このようにして収集した表層KWと意味KWとの対応関係を、対応付けの確からしさを表す確率値と共に表層−意味KWsコーパス辞書として準備する。
解析装置3は、ESAマトリクスにおける関係KWと関連する表層KWを抽出し、表層KW(第1のキーワード)と関係KWとの対応確率を要素とする変換行列Rmatを生成する。対応確率は、共起頻度又は表層KWの重要度などの指標に基づいて算出されてよい。
そして、解析装置3は、関係行列(modESAマトリクス)を、次の行列演算により算出する。
modESA=RMat*ESA
ESAマトリクスの行は関係KWに、列は意味KWに対応している。これに対して、RMatの行は表層KWに、列は関係KWに対応している。ESAマトリクスにRMatを乗ずることにより、ESAマトリクスの関係KWが表層KWに拡張されたmodESAマトリクスが生成される。
キーワード抽出装置1の制御部は、取得部11と、抽出部12と、生成部13と、算出部14と、特定部15とを備える。
抽出部12は、番組の字幕などの処理対象として入力されたテキストから、関係行列に登録されている複数の表層KWを抽出する。
ここで、生成部13は、一連のテキストの境界、例えば番組の切れ目を判別し、この境界の次に入力された最初のテキストに対して生成した部分関係行列を調整するための減衰係数をゼロとすることにより、過去の文脈の影響をリセットする。
(手順1)抽出部12は、入力テキストから表層KWを抽出する。なお、抽出手法には、例えば前述の非特許文献2の提案手法が採用可能である。
なお、文脈の始まり(番組の始まり)では、行列(C)は存在せず、手順2で選択された部分行列(A)がそのままpart−modESAマトリクス(B)となる。
手順1から4が繰り返されることにより、part−modESAマトリクス(B)が更新されていく。
特定部15は、例えば、最も信頼度の高い意味KWを特定してよい。あるいは、信頼度の上位所定数が信頼度の値と共にソートされて出力されてもよい。
まず、算出部14は、テキストから抽出された表層KWに該当するpart−modESAマトリクスの行において、対応する意味KWの集合、すなわち所定以上の対応確率を有する意味KWの集合(W1,W2,W3)を特定する。
次に、算出部14は、特定された意味KW毎に、列方向にpart−modESAマトリクスの構成要素である確率の和計算を行う。
この例では、入力字幕例から表層KWとして、「スターティングメンバー」、「×××国」、「選手」、「N村」、「F沢」が抽出されている。
これらの表層KWそれぞれについて、対応する関係行列の行(網掛け)が選択されている。
このように、表層KW単独では複数の意味KWの候補が存在する場合にも、文脈の中に現れる他の表層KWと候補それぞれとの関わりが信頼度として反映され、語義曖昧性が解消される。
さらに、キーワード抽出装置1は、概念リンクコーパスとしての関係行列(modESAマトリクス)のうち一部の関係する表層KWに対応する行、及び関連する意味KWの候補のみを抽出して処理するので、演算対象のデータ量を削減して処理負荷を低減できる。
また、文章から意味的なキーワードが抽出されるので、コンテンツの内容に沿ったユーザインターフェースが実現できる。例えば、テレビ番組の視聴中に登場する選手又は場所などを不完全な字幕情報から特定できるので、視聴者は、興味のあるキーワードに関する情報を自然な形で取得できる。
このとき、キーワード抽出装置1は、番組の切り替わりなど、一連のテキストの境界を判定するので、減衰係数を一旦ゼロにすることにより関係の薄い過去の文脈の影響を排除できる。
さらに、概念リンクコーパスの要素となる、表層KWの拡張に際しては、既存の言語資源データから頻度特徴を分析することにより行われる。このとき、ESAの関係KWと表層KWとの関係性が定義された変換行列を用いることにより、利用する言語資源の性質に応じて効率的に関係行列が構築される。
2 記憶装置
3 解析装置
11 取得部
12 抽出部
13 生成部
14 算出部
15 特定部
Claims (7)
- 第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得部と、
入力されたテキストから複数の前記第1のキーワードを抽出する抽出部と、
前記関係行列から、前記抽出部により抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成部と、
前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出部と、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定部と、を備えるキーワード抽出装置。 - 前記生成部は、順次入力される複数のテキストのそれぞれに対して、前記部分関係行列を生成した後、直前のテキストに基づいて生成された前記部分関係行列に所定の減衰係数を乗じた行列を足し合わせて調整する請求項1に記載のキーワード抽出装置。
- 前記生成部は、一連のテキストの境界を判別し、当該境界の次に入力された最初のテキストに対して生成した前記部分関係行列を調整するための前記減衰係数をゼロにする請求項2に記載のキーワード抽出装置。
- 前記関係行列は、ウェブサイトにおけるリンク構造に基づく、リンク元のキーワードとリンク先のキーワードとの関係を含む請求項1から請求項3のいずれかに記載のキーワード抽出装置。
- 前記関係行列は、前記リンク元のキーワード及び前記第1のキーワードが対応付けられる確率を要素とする変換行列を乗ずることにより拡張されている請求項4に記載のキーワード抽出装置。
- 第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、
入力されたテキストから複数の前記第1のキーワードを抽出する抽出ステップと、
前記関係行列から、前記抽出ステップにおいて抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、
前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定ステップと、をコンピュータが実行するキーワード抽出方法。 - 第1のキーワードと、当該第1のキーワードにより表現される1以上の対象それぞれを一意に示す第2のキーワードとが対応付けられる確率を要素とする関係行列を取得する取得ステップと、
入力されたテキストから複数の前記第1のキーワードを抽出する抽出ステップと、
前記関係行列から、前記抽出ステップにおいて抽出された前記第1のキーワードに対応する確率分布を含む部分関係行列を生成する生成ステップと、
前記第1のキーワードに対応付けられている前記第2のキーワードそれぞれに対して、前記部分関係行列における確率の総和に基づく信頼度を算出する算出ステップと、
前記信頼度に基づいて、前記テキストにより表現されている対象を示す前記第2のキーワードを特定する特定ステップと、をコンピュータに実行させるためのキーワード抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016088358A JP6584361B2 (ja) | 2016-04-26 | 2016-04-26 | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016088358A JP6584361B2 (ja) | 2016-04-26 | 2016-04-26 | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017199139A JP2017199139A (ja) | 2017-11-02 |
JP6584361B2 true JP6584361B2 (ja) | 2019-10-02 |
Family
ID=60238408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016088358A Active JP6584361B2 (ja) | 2016-04-26 | 2016-04-26 | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6584361B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020003928A1 (ja) * | 2018-06-28 | 2020-01-02 | 株式会社Nttドコモ | エンティティ特定システム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3952216B2 (ja) * | 1995-11-27 | 2007-08-01 | 富士通株式会社 | 翻訳装置及び辞書検索装置 |
JP3166646B2 (ja) * | 1996-12-13 | 2001-05-14 | 日本電気株式会社 | 語義曖昧性解消装置 |
JP2005327107A (ja) * | 2004-05-14 | 2005-11-24 | Fuji Xerox Co Ltd | 固有名カテゴリ推定装置及びプログラム |
JP4767694B2 (ja) * | 2006-01-13 | 2011-09-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 不正ハイパーリンク検出装置及びその方法 |
US8533223B2 (en) * | 2009-05-12 | 2013-09-10 | Comcast Interactive Media, LLC. | Disambiguation and tagging of entities |
JP6135866B2 (ja) * | 2012-01-30 | 2017-05-31 | 日本電気株式会社 | 同表記異義語識別装置、方法及びプログラム |
US10831811B2 (en) * | 2015-12-01 | 2020-11-10 | Oracle International Corporation | Resolution of ambiguous and implicit references using contextual information |
-
2016
- 2016-04-26 JP JP2016088358A patent/JP6584361B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017199139A (ja) | 2017-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7346487B2 (en) | Method and apparatus for identifying translations | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
KR101326354B1 (ko) | 문자 변환 처리 장치, 기록 매체 및 방법 | |
JP5078173B2 (ja) | 多義性解消方法とそのシステム | |
US20130018650A1 (en) | Selection of Language Model Training Data | |
US20120323554A1 (en) | Systems and methods for tuning parameters in statistical machine translation | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US11328006B2 (en) | Word semantic relation estimation device and word semantic relation estimation method | |
JP5656353B2 (ja) | マルチリンガル・テキスト・リソースのアクセスを制御するための方法および装置 | |
US10853569B2 (en) | Construction of a lexicon for a selected context | |
KR102088357B1 (ko) | 기계독해기반 질의응답방법 및 기기 | |
JP2020126360A (ja) | 学習データ拡張装置、学習装置、翻訳装置、およびプログラム | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
JP2007156545A (ja) | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 | |
JP6584361B2 (ja) | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム | |
JP2016189154A (ja) | 翻訳方法、装置、及びプログラム | |
JP2010009237A (ja) | 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP6451151B2 (ja) | 質問応答装置、質問応答方法、プログラム | |
KR102571400B1 (ko) | 임상시험 데이터 검색 장치 및 방법 | |
JP2018055620A (ja) | 情報処理装置及びプログラム | |
JP2012243130A (ja) | 情報検索装置、方法、及びプログラム | |
JP5178357B2 (ja) | 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム | |
KR101450795B1 (ko) | 대용어 복원 장치 및 방법 | |
JP6145027B2 (ja) | モデル学習装置、形態素解析装置、及びプログラム | |
JP5363178B2 (ja) | 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190903 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6584361 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |