JP2014199475A - 言語表現抽出装置、言語表現抽出方法およびプログラム - Google Patents
言語表現抽出装置、言語表現抽出方法およびプログラム Download PDFInfo
- Publication number
- JP2014199475A JP2014199475A JP2013073663A JP2013073663A JP2014199475A JP 2014199475 A JP2014199475 A JP 2014199475A JP 2013073663 A JP2013073663 A JP 2013073663A JP 2013073663 A JP2013073663 A JP 2013073663A JP 2014199475 A JP2014199475 A JP 2014199475A
- Authority
- JP
- Japan
- Prior art keywords
- extraction
- instance
- expression
- reliability
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
以下、本発明の第1実施形態に係る言語表現抽出装置10について説明する。この言語表現抽出装置10は、文書データの中から抽出された文字列表現の信頼性を評価し、その結果に応じて、抽出された文字列表現の中から、信頼性の高い文字列表現を抽出するものである。
本実施形態の言語表現抽出装置10の構成例について図1および図2を参照して説明する。図1は、一実施形態に係る言語表現抽出装置10の構成例を示す図である。図2は、仮インスタンスと正規インスタンスとが一致する度合いを示す一致度を計算する方法を説明するための図であって、(a)は文書中の正解インスタンスおよび仮インスタンス、(b)は正解インスタンスおよび仮インスタンスの形態素列、(c)は形態素列の各品詞、を示す。
次に、この言語表現抽出装置10によって実現される全体処理について、図1〜図3を参照して説明する。図3は、言語表現抽出装置10における制御処理全体の一例を示すフローチャートである。
以下、第2実施形態である言語表現抽出装置100について説明する。
言語表現抽出装置100の構成例について図4〜図9を参照して説明する。図4は言語表現抽出装置100の構成例を示す図である。図5は、文書記憶部のデータ構成の一例を示す図である。図6は、解析結果記憶部のデータ構成の一例を示す図である。図7は、インスタンス記憶部のデータ構成の一例を示す図である。図8は、パターン記憶部のデータ構成の一例を示す図である。図9は、単一パターン記憶部のデータ構成の一例を示す図である。
以下、この言語表現抽出装置100の動作について説明する。
・パターン1の第2信頼度:0.6(=0.6×1)
・パターン2の第2信頼度:0.72(=0.9×0.8)
・パターン3の第2信頼度:0.45(=0.5×0.9)
・パターン4の第2信頼度:0.16(=0.8×0.2)
・パターン5の第2信頼度:0.21(=0.7×0.3)
・インスタンス2:例えば、「<条件>アップデートした後</条件>、再起動せずにソフトを<症状>起動しない</症状>でください。」(パターン4、5に対応する)
・インスタンス4:「<条件>インストールした後、毎回発生するわけではないが</条件>、たまに<症状>動作が遅い</症状>場合があります。」(パターン2に対応する)
・インスタンス5:「<条件>インストールした後</条件>、なぜか毎回発生するわけではないが、<症状>動作が遅い</症状>場合があります。」(パターン3に対応する)
・インスタンス6:「<条件>著作権保護のため</条件>、コピーソフトを<症状>インストールしない</症状>でください。」((パターン5に対応する)
新規インスタンスの第1信頼度の計算処理では、例えば、{(対応するパターンの第2信頼度)×(対応するインスタンスの第1信頼度=式(1)の計算結果)}/(対応するパターンの数)の式によって求められる。例えば、図10のフローチャートの例によれば、インスタンス1は、2つのパターン2、3に対応し、パターン2、3の各第2信頼度はそれぞれ0.72、0.45である。そして、インスタンス1の第1信頼度は例えば0.8(式(1)の計算結果)になる。この結果、インスタンス1の第1信頼度は、{(0.72×0.8)+(0.45×0.8)}/2から0.468になる。
・インスタンス2の第1信頼度:0.148(={(0.16×0.8)+(0.21×0.8)}/2)
・インスタンス3の第1信頼度:0.54(=0.6×0.9)
・インスタンス4の第1信頼度:0.72(=0.72×1.0)
・インスタンス5の第1信頼度:0.405(=0.45×0.9)
・インスタンス6の第1信頼度:0.189(=0.21×0.9)
新規インスタンスの一致度の計算処理では、インスタンス信頼性評価部108は、各インスタンスを抽出したパターン(例えば、インスタンス3の場合は、パターン1)を生成した元となるインスタンス(群)のIDをパターン記憶部106の「生成元インスタンスペア」(図12(b))から取得する。そして、インスタンス信頼性評価部108は、その生成元インスタンスペア(群)のIDをキーとして、インスタンス記憶部110(図12(a)参照)から、抽出元文IDを抽出し、さらには、その抽出元文IDに対応する開始位置および終了位置を取得する。さらに、インスタンス信頼性評価部108は、上記抽出元文IDに基に、解析結果記憶部103(図6参照)から、対応する文の形態素解析・係り受け解析結果を取得し、上記開始位置から上記終了位置までの形態素の情報を取得する。
インスタンス3:
<条件>OSアップデートを実施したら
<症状>PCが起動しない
インスタンス1:
<条件>アップデートした後
<症状>起動しない
・インスタンス1の一致度:1.0(=1.0×1.0)
・インスタンス2の一致度:1.0(=1.0×1.0)
・インスタンス4の一致度:0.12(=0.2×0.6)
・インスタンス5の一致度:0.54(=0.9×0.6)
・インスタンス6の一致度:0.24(=0.3×0.8)
新規インスタンスの第2信頼度の計算処理では、(1)で求めた第1信頼度×(2)で求めた一致度によって、第2信頼度が計算される。その結果、インスタンス1〜6の各第2信頼度は以下のとおりである。
・インスタンス1の第2信頼度:0.468(=0.468×1.0)
・インスタンス2の第2信頼度:0.148(=0.148×1.0)
・インスタンス3の第2信頼度:0.340(=0.54×0.63)
・インスタンス4の第2信頼度:0.086(=0.72×0.12)
・インスタンス5の第2信頼度:0.219(=0.405×0.54)
・インスタンス6の第2信頼度:0.045(=0.189×0.24)
単一インスタンスの一致度の計算処理では、単一インスタンス信頼性再評価部116は、各単一インスタンス(例えば、図14(a)のインスタンスID=I0016〜I0020)に基づいて、解析結果記憶部103(図6参照)から、対応するインスタンスの形態素解析・係り受け解析結果(形態素の情報)を取得する。また、単一インスタンス信頼性再評価部116は、単一インスタンスの表現種別(例えば、症状)と同一のペアのインスタンス((図11のステップS127で絞り込まれたもの、つまり、図12(a)の抽出可否がtrueを示すもの)の形態素の情報を、解析結果記憶部103(図6参照)から取得する。そして、単一インスタンス信頼性再評価部116は、上記取得対象の単一インスタンスと、上記取得対象のペアのインスタンスとが一致するか否かに基づいて、単一インスタンスの一致度を計算する。この一致度は、第1実施形態における式(3)で示したものと同一である。このとき、比較対象となるペアのインスタンスは複数存在することが考えられるため、単一インスタンスの一致度は、複数の一致度の平均値としてもよいし、得られた一致度の最大値としてもよい。
・インスタンスID=I0002、I0004:「起動しない」:一致度=0.5
・インスタンスID=I0008:「起動しない」:一致度=0.7
・インスタンスID=I0012:「動作が遅い」:一致度=0.3
・インスタンスID=I0017の一致度:0.7
・インスタンスID=I0018の一致度:0.9
・インスタンスID=I0019の一致度:1.5
・インスタンスID=I0020の一致度:0.2
単一インスタンスの抽出元パターンの一致度の計算処理では、単一インスタンス信頼性再評価部116は、各単一インスタンス(例えば、図14(a)のインスタンスID=I0016〜I0020)の抽出元パターンIDを、インスタンス記憶部110から取得する。また、単一インスタンス信頼性再評価部116は、抽出元パターンIDに基づいて、対応するパターンの内、インスタンス以外の部分の形態素の情報を解析結果記憶部103(図6参照)から取得する。さらに、単一インスタンス信頼性再評価部116は、図11のステップS125におけるパターン(閾値以上の第2信頼度を有するもの)の内、単一インスタンスと表現種別が同じインスタンス以外の部分の形態素の情報を、当該パターンIDに対応する生成元インスタンスペアID、抽出元文ID、開始位置および終了位置等の情報に基づいて、解析結果記憶部103(図6参照)から取得する。そして、単一インスタンス信頼性再評価部116は、上記単一インスタンスに対応するパターンと、上記取得対象のペアのインスタンス(単一インスタンスと表現種別が同じインスタンス部分を除く)とが一致するか否かに基づいて、単一インスタンスの抽出元パターンの一致度を計算する。この一致度は、第1実施形態における式(3)で示したものと同一である。このとき、比較対象となるペアのパターンは複数存在することが考えられるため、パターンの一致度は、複数の一致度の平均値としてもよいし、得られた一致度の最大値としてもよい。
・「、」「ことがある。」(P0001):一致度=0.7
・「、たまに」「場合があり」(P0002):一致度=0.4
・「、」「場合が」(P0003):一致度=0.3
・インスタンスID=I0017の一致度:0.4
・インスタンスID=I0018の一致度:0.7
・インスタンスID=I0019の一致度:0.6
・インスタンスID=I0020の一致度:0.4
単一インスタンスの第2信頼度の再計算処理では、(1)で求めたインスタンスの一致度×(2)で求めたパターンの一致度によって、第2信頼度が再計算される。その結果、単一インスタンスの各第2信頼度は以下のとおりになる。なお、両者の一致度を加算してもよい。
・インスタンスID=I0016の第2信頼度:0.65(=(0.7+0.6)/2)
・インスタンスID=I0017の第2信頼度:0.55(=(0.7+0.4)/2)
・インスタンスID=I0018の第2信頼度:0.80(=(0.9+0.7)/2)
・インスタンスID=I0019の第2信頼度:0.55(=(0.5+0.6)/2)
・インスタンスID=I0020の第2信頼度:0.30(=(0.2+0.4)/2)
第2実施形態では、言語表現抽出装置の一例として、初期の正解インスタンスに対応するインスタンスを抽出した後にパターンを生成する場合について説明したが、この実施形態では、パターンを生成した後にインスタンスを抽出するようにした言語表現抽出装置100Aとしている。
第1実施形態の変形例1に係る言語表現抽出装置では、上述した仮インスタンスの一致度は、第1実施形態で例示したものに限られず、様々な設定が可能である。例えば、各インスタンスを構成するすべての形態素の内、語尾に位置する形態素(特徴)が一致するか否か(一致する場合の「1」、または、不一致の場合の「0」)に基づいて、計算しても構わない。例えば、図2では、正解インスタンスの語尾に対応する形態素として、「後」(名詞−非自立−副詞可能)という品詞が与えられ、仮インスタンスの語尾に対応する文字として、「ら」(助動詞)という品詞が与えられるので、両者の一致度は、「0」となる。
第1実施形態の変形例2に係る言語表現抽出装置においても、正確なインスタンスを抽出できるようにするため、図11に示したものと同様に、パターンの第2信頼度を算出することで、インスタンスの決定を行うようにしてもよい。図1、図3および図13を参照して、そのときの動作について説明する。
第1実施形態の変形例3に係る言語表現抽出装置では、抽出部12において、文書データに含まれる仮インスタンスの文字列表現の直前もしくは直後に存在する形態素、または、仮インスタンスの文字列表現の係りもしくは受け側に存在する形態素を参照してパターンを生成してもよい。例えば、仮インスタンスが正解インスタンスとは異なる文脈で使用されている場合に、そのような仮インスタンスを排除することができ、これにより、正確なインスタンスの抽出が行える。
11 登録部
12 抽出部
13 評価部
14 決定部
104 パターン生成部
105 パターン信頼性評価部
106 インスタンス抽出部
107 インスタンス信頼性評価部
108 インスタンス絞込部
111 単一パターン生成部
112 単一パターン信頼性評価部
113 単一インスタンス抽出部
114 単一パターン記憶部
115 単一インスタンス信頼性評価部
116 単一インスタンス信頼性再評価部
117 単一インスタンス絞込部
Claims (7)
- 特定の文字列からなる句表現を正解データとして登録する登録部と、
抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出する抽出部と、
前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価する評価部と、
前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定する決定部と、
を含むことを特徴とする言語表現抽出装置。 - 前記抽出部は、前記決定部によって決定された前記抽出対象の文字列表現を含む文字列の第2の抽出パターンを生成し、前記第2の抽出パターンに基づいて前記文書データに含まれる文字列表現を、抽出候補として抽出し、 前記評価部は、前記抽出パターンと前記第2の抽出パターンとに基づいて、前記第2の抽出パターンに対する信頼性を評価し、
前記決定部は、前記抽出候補に対する信頼性の評価結果と、前記抽出パターンに対する信頼性の評価結果とに応じて、前記抽出パターンを選択し、
前記抽出部、前記評価部および前記決定部の各処理は、一連の処理として繰り返し実行されるように構成されている
ことを特徴とする請求項1に記載の言語表現抽出装置。 - 前記評価部は、ペアの句表現を正解データとして登録した場合にはさらに、前記ペアの句表現に基づいて抽出された抽出結果と、前記抽出候補とが一致する度合いに応じて、前記抽出候補に対する信頼性を変更することを特徴とする請求項1または2に記載の言語表現抽出装置。
- 前記抽出パターンは、前記文書データに含まれる前記抽出候補の前記文字列表現の直前もしくは直後に存在する形態素、または、前記抽出候補の前記文字列表現の係りもしくは受け側に存在する形態素を参照して生成されることを特徴とする請求項1ないし3のいずれか1項に記載の言語表現抽出装置。
- 前記評価部は、前記抽出候補の前記文字列表現内のすべての形態素列の構成と、前記正解データの前記句表現内のすべての形態素列の構成とが一致する度合いに基づいて、前記信頼性を評価することを特徴とする請求項1ないし4のいずれか1項に記載の言語表現抽出装置。
- コンピュータによって実行される言語表現抽出方法であって、
特定の文字列からなる句表現を正解データとして登録するステップと、
抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出するステップと、
前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価するステップと、
前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定するステップと、
を含むことを特徴とする言語表現抽出方法。 - 請求項6に記載の言語表現抽出方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013073663A JP2014199475A (ja) | 2013-03-29 | 2013-03-29 | 言語表現抽出装置、言語表現抽出方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013073663A JP2014199475A (ja) | 2013-03-29 | 2013-03-29 | 言語表現抽出装置、言語表現抽出方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014199475A true JP2014199475A (ja) | 2014-10-23 |
Family
ID=52356359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013073663A Pending JP2014199475A (ja) | 2013-03-29 | 2013-03-29 | 言語表現抽出装置、言語表現抽出方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014199475A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6635460B1 (ja) * | 2019-06-14 | 2020-01-22 | ソプラ株式会社 | 情報生成装置、コーパスの生産方法、およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009113289A1 (ja) * | 2008-03-12 | 2009-09-17 | 日本電気株式会社 | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム |
-
2013
- 2013-03-29 JP JP2013073663A patent/JP2014199475A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009113289A1 (ja) * | 2008-03-12 | 2009-09-17 | 日本電気株式会社 | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム |
Non-Patent Citations (2)
Title |
---|
JPN6016019455; 坂地 泰紀、野中 尋史、酒井 浩之、増山 繁: 'Cross-Bootstrapping:特許文書からの課題・効果表現対の自動抽出手法' 電子情報通信学会論文誌 第J93-D巻,第6号, 20100601, p.742-755, 社団法人電子情報通信学会 * |
JPN6016042808; Patrick Pantel,Marco Pennacchiotti: 'Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations' [online] [検索日 2016.10.31], 20060717, p.113-120, Association for Computational Linguistics * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6635460B1 (ja) * | 2019-06-14 | 2020-01-22 | ソプラ株式会社 | 情報生成装置、コーパスの生産方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
CN106462604B (zh) | 识别查询意图 | |
AU2015203818B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
WO2020108063A1 (zh) | 特征词的确定方法、装置和服务器 | |
US20120089394A1 (en) | Visual Display of Semantic Information | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
US20170060845A1 (en) | Dynamic Portmanteau Word Semantic Identification | |
US10255047B2 (en) | Source code analysis and adjustment system | |
US20210064697A1 (en) | List-based entity name detection | |
US20100125725A1 (en) | Method and system for automatically detecting keyboard layout in order to improve the quality of spelling suggestions and to recognize a keyboard mapping mismatch between a server and a remote user | |
EP3323065B1 (en) | Suggestion-based differential diagnosis | |
US10509812B2 (en) | Reducing translation volume and ensuring consistent text strings in software development | |
US10534788B2 (en) | Automatically determining a recommended set of actions from operational data | |
JP5286125B2 (ja) | 単語境界決定装置および形態素解析装置 | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
RU2693328C2 (ru) | Способы и системы для создания заменяющего запроса для введенного пользователем запроса | |
JP2014199475A (ja) | 言語表現抽出装置、言語表現抽出方法およびプログラム | |
CN116166814A (zh) | 事件检测方法、装置、设备以及存储介质 | |
JP6546703B2 (ja) | 自然言語処理装置及び自然言語処理方法 | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
JP7211139B2 (ja) | 校閲方法、情報処理装置および校閲プログラム | |
JP2010267047A (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
JP5348699B2 (ja) | データ分類システム、データ分類方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160531 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160801 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20161108 |