JP2014199475A - 言語表現抽出装置、言語表現抽出方法およびプログラム - Google Patents

言語表現抽出装置、言語表現抽出方法およびプログラム Download PDF

Info

Publication number
JP2014199475A
JP2014199475A JP2013073663A JP2013073663A JP2014199475A JP 2014199475 A JP2014199475 A JP 2014199475A JP 2013073663 A JP2013073663 A JP 2013073663A JP 2013073663 A JP2013073663 A JP 2013073663A JP 2014199475 A JP2014199475 A JP 2014199475A
Authority
JP
Japan
Prior art keywords
extraction
instance
expression
reliability
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013073663A
Other languages
English (en)
Inventor
雄司 野村
Yuji Nomura
雄司 野村
高志 末永
Takashi Suenaga
高志 末永
高木 徹
Toru Takagi
徹 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2013073663A priority Critical patent/JP2014199475A/ja
Publication of JP2014199475A publication Critical patent/JP2014199475A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】所望の句表現を正確に抽出することを可能にする言語表現抽出装置を提供する。【解決手段】言語表現抽出装置10は、特定の文字列からなる句表現を正解インスタンスとして登録する登録部11と、文書データの中から句表現を含む文字列のパターンを生成し、パターンに基づいて、文書データに含まれる文字列表現を、仮インスタンスとして抽出する抽出部12と、仮インスタンスの文字列表現の特徴と、正解インスタンスの句表現の特徴とが一致する度合いに基づいて、仮インスタンスに対する信頼性を評価する評価部13と、信頼性の評価結果に応じて、仮インスタンスの中から絞り込まれた仮インスタンスの文字列表現を、インスタンスとして決定する決定部14とを含む。【選択図】図1

Description

本発明は、文書データの中から所望の表現を抽出するための言語表現抽出装置、言語表現抽出方法およびプログラムに関する。
企業では一般に、自社製品のより深い分析や業務効率を向上させるために、消費者から直接寄せられる情報や、ウェブ上の様々な情報を活用する必要性がある。具体的には、企業では、そのような情報の中に含まれる一般的な製品の評判や評価に関する内容を分析することにより、製品の良し悪しについて把握するだけではなく、製品の不具合または消費者の苦情や要望・感謝などを表す情報を抽出し、事業の改善活動や今後の注意喚起につなげたい場合が多い。そのために、目的ごとに、意味のある単位で情報を抽出する必要がある。例えば、「メールを着信した際、音が鳴らない」という文がある場合、その事象が生じる条件となる「メールを着信した際」と、不具合の事象となる「音が鳴らない」とを対にした句表現として抽出することで、抽出した句表現が含まれる文全体の背景を含めた理解ができるようになる。
公知のキーワード検索に基づく情報分析では、キーワードとしての例えば「音」または「鳴らない」を個別に抽出する必要があるが、そのようなキーワードから、当該キーワードを含む表現が、重要な内容か否かを判断することは容易ではない。
従来、語彙を自動的に抽出するブートストラッピング技術が知られている。例えば、このブートストラッピング技術では、抽出対象となる語と、この語を含む抽出パターンとを交互に抽出していき、文書データの中から、正解データとしての語に対応する所望の語を取得するものがある(特許文献1、2)。
国際公開2009/113289号
Pantel, P. and Pennacchiotti, M.: Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations, In Proc. of COLING-ACL, pp.113-120, 2006
上記ブートストラッピング技術では、所望の語を取得することができるものの、名詞を構成する語を抽出することを想定しているため、従来の技術では、文字列からなる所望の句表現を正確に抽出することができないという問題があった。
本発明は、上述した状況においてなされたものであり、所望の句表現を正確に抽出することを可能にする言語表現抽出装置、言語表現抽出方法およびプログラムを提供することにある。
上記の課題を解決するための言語表現抽出装置は、特定の文字列からなる句表現を正解データとして登録する登録部と、抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出する抽出部と、前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価する評価部と、前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定する決定部とを含む。
上記の課題を解決するための言語表現抽出方法は、コンピュータによって実行される言語表現抽出方法であって、特定の文字列からなる句表現を正解データとして登録するステップと、抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出するステップと、前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価するステップと、前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定するステップとを含む。
上記の課題を解決するためのプログラムは、上記言語表現抽出方法をコンピュータに実行させるためのものである。
本発明によれば、所望の句表現を正確に抽出することができる。
第1実施形態に係る言語表現抽出装置の構成例を示す図である。 仮インスタンスと正規インスタンスとが一致する度合いを示す一致度を計算する方法を説明するための図である。 第1実施形態の言語表現抽出装置における制御処理全体の一例を示すフローチャートである。 第2実施形態に係る言語表現抽出装置の構成例を示す図である。 文書記憶部のデータ構成の一例を示す図である。 解析結果記憶部のデータ構成の一例を示す図である。 インスタンス記憶部のデータ構成の一例を示す図である。 パターン記憶部のデータ構成の一例を示す図である。 単一パターン記憶部のデータ構成の一例を示す図である。 第2実施形態の言語表現抽出装置における制御処理全体の一例を示すフローチャートである。 第2実施形態の言語表現抽出装置において、ペアのインスタンス抽出処理のために実行される処理の一例を示すフローチャートである。 ペアのインスタンス抽出処理時におけるインスタンス記憶部およびパターン記憶部の各データ構成の一例を示す図である。 第2実施形態の言語表現抽出装置において、単一のインスタンス抽出処理のために実行される処理の一例を示すフローチャートである。 単一のインスタンス抽出処理時におけるインスタンス記憶部およびパターン記憶部の各データ構成の一例を示す図である。 第3実施形態に係る言語表現抽出装置の構成例を示す図である。
<第1実施形態>
以下、本発明の第1実施形態に係る言語表現抽出装置10について説明する。この言語表現抽出装置10は、文書データの中から抽出された文字列表現の信頼性を評価し、その結果に応じて、抽出された文字列表現の中から、信頼性の高い文字列表現を抽出するものである。
[言語表現抽出装置10の構成]
本実施形態の言語表現抽出装置10の構成例について図1および図2を参照して説明する。図1は、一実施形態に係る言語表現抽出装置10の構成例を示す図である。図2は、仮インスタンスと正規インスタンスとが一致する度合いを示す一致度を計算する方法を説明するための図であって、(a)は文書中の正解インスタンスおよび仮インスタンス、(b)は正解インスタンスおよび仮インスタンスの形態素列、(c)は形態素列の各品詞、を示す。
図1に示すように、言語表現抽出装置10は、登録部11と、抽出部12と、評価部13と、決定部14とを備える。言語表現抽出装置10は、例えば、パーソナルコンピュータ、サーバコンピュータ等である。
登録部11は、例えばROMまたはRAMにより構成され、特定の文字列からなる表現を正解データとして登録する。この実施形態では、特定の文字列からなる表現は、複数の形態素列からなる1つ以上の文章表現(句表現)であるが、この文章表現は後に例示する。
なお、ROMにはプログラムが記憶されており、当該プログラムが実行され、本実施形態の言語表現抽出装置10が実現される。このプログラムは、CD−ROM等の記憶媒体に格納されていてもよい。
抽出部12は、抽出対象となる文書データの中から、正解インスタンス(正解データ)となる表現を含む文字列の抽出パターン(以下、単に「パターン」と略記する。)を選び、その表現の出現頻度とパターンの出現頻度とに基づいて、文書データに含まれる文字列表現を、仮インスタンス(抽出候補)として抽出する。抽出部12では、正解インスタンスおよび仮インスタンスの各々を対象として、形態素(言語で意味を持つ最小単位)の列に分割し、各形態素の品詞を判別する。そして、抽出部12では、例えばブートストラッピング手法にしたがって、インスタンスとパターンとを相互再帰的に信頼度を計算する。この実施形態では、抽出部12は、例えば自己相互情報量(特許文献1を参照)を利用し、下記の式によってインスタンスの第1信頼度Score(i)(i=1,2,・・・)と、パターンの第1信頼度Score(p)(p=1,2,・・・)を計算する。Score(i)は、下記の式によって計算される。
Figure 2014199475
式(1)中、pmi(i,p)はlog{│i,p│/│i││p│}、│I│はインスタンスの数、│p│はパターンの数、│i│は文書中に出現するインスタンスの頻度、│p│は文書中に出現するパターンの頻度、│i,p│は文書中におけるインスタンスとパターンとの共起頻度を示す。Score(p)は、下記の式によって計算される。
Figure 2014199475
抽出部12は、すべてのインスタンスと、すべてのパターンとを対象として、それぞれの第1信頼度を計算し、第1信頼度が閾値以上のインスタンスを、仮インスタンスとして抽出する。
評価部13は、仮インスタンスの文字列表現と、正解インスタンスの表現とが一致する度合いに基づいて、仮インスタンスに対する信頼性を評価する。この実施形態では、仮インスタンスに対する信頼性の評価手法として、正解インスタンスの特徴(形態素の品詞、表層など)と仮インスタンスの特徴(形態素の品詞、表層など)との間の第2信頼度が計算される。この第2信頼度は、上述した式(1)で示した第1信頼度Score(i)(i=1,2,・・・)と、仮インスタンスと正規インスタンスとが一致する度合いを表す一致度matchScore(i)(i=1,2,・・・)とを用いて、例えば{Score(i)×matchScore(i)}によって計算されるが、{Score(i)+matchScore(i)}によって計算されるようにしてもよい。一致度matchScore(i)は、例えば下記式で計算される。
Figure 2014199475
式(3)中、distance(pos(i),pos(correct))は仮インスタンスの形態素の品詞構成を正解インスタンスの形態素の品詞構成と一致させるために要する形態素の追加または削除の回数、max(│pos(i)│,│pos(correct)│)は正解インスタンスまたは仮インスタンスのうち、形態素の数が多い方の形態素の数を示す値、を示す。
例えば図2(a)〜(c)で示す例で説明すると、仮インスタンスと正規インスタンスとが一致する度合いを表す一致度matchScore(i)(i=1,2,・・・)の計算例として、正解インスタンスは、「アップデート」(名詞−一般)/「し」(動詞−自立)/「た」(助動詞)/「後」(名詞−非自立−副詞可能)の形態素の列を含む「アップデートした後」という表現が登録されている。そして、文書の中から、例えば、「OSアップデート」(名詞−一般)/「を」(助詞−格助詞−一般)/「実施」(名詞−サ変接続)/「し」(動詞−自立)/「ら」(助動詞)の形態素の列を含む「OSアップデートを実施したら」という文字列表現の仮インスタンスが抽出される。
図2(c)に示すように、評価部13では、仮インスタンスの形態素の品詞構成、および、正規インスタンスの形態素の品詞構成に基づいて、仮インスタンスの形態素の品詞構成を正規インスタンスの形態素の品詞構成と一致させるための編集の回数を判定することにより、一致度matchScore(i)(i=1,2,・・・)を計算する。図2では、仮インスタンスの形態素の品詞構成と正規インスタンスの形態素の品詞構成とを一致させるためには、例えば、仮インスタンスの「を」(助詞−格助詞−一般)と、「実施」(名詞−サ変接続)とを削除し、さらには、正解インスタンスの「後」(名詞−非自立−副詞可能)と同一の品詞を仮インスタンスに追加する必要がある。すなわち、編集の回数は3回になるので、式(3)に示したdistance(pos(i),pos(correct))は、3になる。
図2に示す例では、正規インスタンスは4つの形態素で構成され、仮インスタンスは5つの形態素で構成されているので、式(3)に示したmax(│pos(i)│,│pos(correct)│)は、5になる。
評価部13では、式(3)において、distance(pos(i),pos(correct))=3、および、max(│pos(i)│,│pos(correct)│)=5を代入し、一致度matchScore(i)=1−3/5=0.4を得る。
この実施形態では、第2信頼度=第1信頼度(式(1)の計算結果)×一致度(式(3)の計算結果)、または、第2信頼度=第1信頼度(式(1)の計算結果)+一致度(式(3)の計算結果)になるので、この計算結果から第2信頼度が得られる。
決定部14は、評価部13における信頼性の評価結果に応じて、仮インスタンスの中から絞り込まれた仮インスタンスの文字列表現を、抽出対象として決定する。例えば、仮インスタンスが閾値以上の第2信頼度を有すれば、その仮インスタンスが抽出対象として決定される。
なお、抽出部12、評価部13および決定部14は、CPUによって実現される。
[言語表現抽出装置10の動作]
次に、この言語表現抽出装置10によって実現される全体処理について、図1〜図3を参照して説明する。図3は、言語表現抽出装置10における制御処理全体の一例を示すフローチャートである。
図3において、正解インスタンスが入力されると、登録部11は、その正解インスタンスを登録し(ステップS1)、抽出部12は、文書の中から仮インスタンスを抽出する(ステップS2)。例えば言語表現抽出装置10がサーバコンピュータの場合、正解インスタンスの入力は、サーバコンピュータと接続された外部のコンピュータから行われる。言語表現抽出装置10がパーソナルコンピュータの場合は、正解インスタンスの入力は、キーボード等の入力装置によって行われる。正解インスタンスは、登録部11に予め登録しておくようにしてもよい。
ステップS2では、抽出部12は、仮インスタンスを抽出する場合には、パターンを生成して、インスタンスの第1信頼度(式(1)の計算結果)と、パターンの第1信頼度(式(2)を参照)とを計算し、閾値以上の第1信頼度をもつインスタンスを、仮インスタンスとして設定する。
次に評価部13は、仮インスタンスの特徴と正解インスタンスの特徴とが一致するか否かに基づいて、仮インスタンスに対する信頼性の評価を行う(ステップS3)。図2の正解インスタンスおよび仮インスタンスの例によれば、評価部13は、式(3)を用いて、仮インスタンスに対する一致度matchScore(i)を「0.4」に設定し、この「0.4」と、対応する第1信頼度Score(i)(式(1)の計算結果)とを例えば乗算して、仮インスタンスの第2信頼度を計算する。この第2信頼度が、仮インスタンスに対する信頼性の評価結果として与えられることになる。
図3において、決定部14は、第2信頼度が与えられた評価結果に応じて、インスタンスを決定する(ステップS4)。決定部14は、例えば、第2信頼度が閾値以上の仮インスタンスを、正解インスタンスに対応するインスタンスとして決定する。
以上説明したように、本実施形態の言語表現抽出装置10によれば、正解インスタンスに対応する仮インスタンスを抽出し、仮インスタンスに対する信頼性を評価して、複数の仮インスタンスの中から信頼性の高い仮インスタンスを選択することによりインスタンスが決定される。ここで、仮インスタンスの信頼性を高くするためには、第2信頼度が高い必要があるので、上述した第1信頼度と、正解インスタンスと仮インスタンスとの一致度とが高いことが要求される。そのため、この実施形態の言語表現抽出装置10では、正解インスタンスとの関係が強いインスタンスを抽出することができる。例えば、「Aソフトをインストールした後、PCが起動しない。」という文の「PCが起動しない」と記述されている内容を、不具合の表現として正解インスタンスが登録されていれば、その不具合の表現とは関係のない記述である「インストールした後、すぐに利用することができました。」という文の信頼性が低くなり、その文の表現がインスタンスとして抽出されることがなくなる。
また、上記と同様に、「PCが起動しない」ととい不具合を表す表現が正解インスタンスとして登録されている場合、例えば、「インストールした後、手順を何度も確認したが、正常に起動しません。」という文における「手順を何度も確認したが」の記述は、正解インスタンスとして登録された不具合の表現である「PCが起動しない」という内容とは関係のない記述となるため、このような余事的記載を含む「手順を何度も確認したが、正常に起動しません。」という表現は、インスタンスとして抽出されなくなる。
ここで、信頼性の評価は、仮インスタンスの文字列表現内のすべての形態素列の構成(例えば、品詞等)と、正解データの句表現内のすべての形態素列の構成(例えば、品詞等)とが一致するか否か(図2(c)参照)に基づいて行われるので、2つのインスタンス間の形態素列の品詞等が同じであればあるほど、信頼性が高くなる。これにより、正解インスタンスに対応するインスタンスを正確に抽出しやすくなる。
<第2実施形態>
以下、第2実施形態である言語表現抽出装置100について説明する。
第1実施形態の言語表現抽出装置10は、1つの正解インスタンスに基づいて抽出された仮インスタンスから、信頼性の高い仮インスタンスに絞り込んでインスタンスを決定する場合について説明したが、正解インスタンスは、必ずしも1つとする必要はない。本実施形態の言語表現抽出装置100は、第1実施形態のものと同様のインスタンスの抽出を実現するものであるが、2つの正解インスタンス(ペアの句表現を含むもの)を与えて文字列の中から、その2つの正解インスタンスに対応する2つのインスタンスを抽出し、さらなる1つの正解インスタンスを与えて、上記2つのインスタンス(正解インスタンスを含む。)と関連があるインスタンスを抽出する。これにより、インスタンスの抽出精度が向上する。
以下の各実施形態の説明では、2つの正解インスタンスに対応する2つのインスタンスの抽出処理を、「ペアのインスタンスの抽出処理」と称する。また、さらなる1つの正解インスタンスに対応し、かつ上記2つのインスタンスと関連があるインスタンスの抽出処理を、「単一のインスタンスの抽出処理」と称する。
[言語表現抽出装置100の構成]
言語表現抽出装置100の構成例について図4〜図9を参照して説明する。図4は言語表現抽出装置100の構成例を示す図である。図5は、文書記憶部のデータ構成の一例を示す図である。図6は、解析結果記憶部のデータ構成の一例を示す図である。図7は、インスタンス記憶部のデータ構成の一例を示す図である。図8は、パターン記憶部のデータ構成の一例を示す図である。図9は、単一パターン記憶部のデータ構成の一例を示す図である。
図4において、言語表現抽出装置100は、文書記憶部101、形態素解析/係り受け解析部102、解析結果記憶部103、パターン生成部104、パターン信頼性評価部105、パターン記憶部106、インスタンス抽出部107、インスタンス信頼性評価部108およびインスタンス絞込部109を備える。さらに、言語表現抽出装置100は、インスタンス記憶部110、単一パターン生成部111、単一パターン信頼性評価部112、単一インスタンス抽出部113、単一パターン記憶部114、単一インスタンス信頼性評価部115、単一インスタンス信頼性再評価部116、および、単一インスタンス絞込部117を備える。
文書記憶部101は、抽出対象の文書データを記憶する。図5に示すように、文書データは、文書IDと、文IDと、文テキストとを含む。
解析結果記憶部103は、形態素解析/係り受け解析部102によって解析された結果を記憶する。この解析結果は、図6に示すように、文IDと対応付けられる。
インスタンス記憶部110は、インスタンスを記憶する。このインスタンスは、図7に示すように、インスタンスIDと、表現種別と、第2信頼度と、インスタンスの開始位置と、インスタンスの終了位置と、抽出元パターンIDと、抽出元文IDと、抽出可否と対応付けられる。表現種別は、対応するインスタンスが意図する内容に応じて、原因、症状などがある。図7に示したインスタンスの開始位置および終了位置によって、文書中におけるインスタンスの各位置が特定される。インスタンス記憶部110のデータについては、後述する動作説明において適宜参照される。
パターン記憶部106は、パターンを記憶する。このパターンは、図8に示すように、パターンIDと、表現種別1と、表現種別2と、第2信頼度と、生成元インスタンスペアと対応付けられる。これらのデータは、後述する動作説明について適宜参照される。
単一パターン記憶部114は、単一パターンを記憶する。この単一パターンは、パターンIDと、表現種別と、生成元インスタンスペアとに対応付けられる。これらのデータは、後述する動作説明について適宜参照される。
図4に示した各記憶部101、103、106、110、114以外の構成要素については、以下の言語表現抽出装置100の動作説明において適宜参照される。
なお、図4に示した各記憶部101、103、106、110、114は、図1に示した登録部11として機能する。図4に示した解析部102、各生成部104、111および各抽出部107、113は、図1に示した抽出部12として機能する。図4に示した各評価部105、108、112、115、116は、図1に示した評価部13として機能する。図4に示した各絞込部109、117は、図1に示した決定部14として機能する。
[言語表現抽出装置100の動作]
以下、この言語表現抽出装置100の動作について説明する。
先ず、言語表現抽出装置100によって実行される処理の全体について、図4および図10を参照して説明する。図10は、言語表現抽出装置100の制御処理の全体の一例を示すフローチャートである。
図10において、形態素解析/係り受け解析部102は、文書記憶部101から文書データを読み出して、その全文書を対象として、形態素解析および係り受け解析を行う(ステップS10)。その解析結果は、解析結果記憶部103に記憶される。
次に、初期の正解インスタンスの登録処理が行われた後に(ステップS11)、言語表現抽出装置100は、ペアのインスタンスの抽出処理を行うとともに(ステップS12)、単一のインスタンスの抽出処理を行う(ステップS13)。なお、ステップS12およびS13の処理は、それぞれ後述する図11および図13において、詳細なフローチャートを示してある。
図11は、ペアのインスタンスの抽出処理の一例を示すフローチャートである。図12は、図11のペアのインスタンスの抽出処理時における各記憶部106、110のデータ構成であって、(a)はインスタンス記憶部110のデータ構成、(b)はパターン記憶部106のデータ構成を示す。なお、以下の動作説明において、値が適宜示されるが、例示的に示しているに過ぎない。
図11において、インスタンス抽出部107は、全文書の中から2つの正解インスタンスの表現を含む仮インスタンスを抽出する(ステップS121)。この抽出処理は、本実施形態においても図3のステップS2で示したものと同一である。
図11の例では、初期の正解インスタンスとして、例えば、「アップデートした後」という条件を表す表現と、「起動しない」という症状を表す表現とが与えられ、これらの正解インスタンスは、図12(a)に示すように、インスタンス記憶部110に記憶される。この正解インスタンスは、例えば「<条件>アップデートした後</条件>、<症状>起動しない</症状>ことがある。」という文(抽出元文)に含まれる。
なお、以下の説明において、<条件>は正規インスタンスの条件表現の開始位置、</条件>は正規インスタンスの条件表現の終了位置、<症状>は正規インスタンスの症状表現の開始位置、</症状条件>は正規インスタンスの症状表現の終了位置を示す。
この場合、ステップS121で抽出された仮インスタンスは、例えば、「アップデートした後、たまに起動しない場合があり困っています。」という文1(インスタンスID=「10003」、「10004」:図12(a)参照)、および、「アップデートした後、再起動せずにソフトを起動しないでください。」という文2(インスタンスID=「10005」、「10006」:図12(a)参照)等が抽出され、これらの仮インスタンスがインスタンス記憶部110(図12(a)のS121で抽出された仮インスタンスを参照)に記憶される。
次に、パターン生成部104は、正解インスタンス、および、仮インスタンスの周辺情報を取得し(ステップS122)、周辺情報からインスタンスを抽出するためのパターンを生成する(ステップS123)。周辺情報は、対応する文中、対応するインスタンスの前後の文字列、または、対応するインスタンスの係り受けの文字列を意味する。
図11のフローチャートの例によれば、ステップS123で、例えば5つのパターン、すなわち、パターン1=「^(.+)、(.+)ことがある。」(正解インスタンスに対応するもの)、パターン2=「^(.+)、たまに(.+)場合があり」、パターン3=「^(.+)、?(.+)場合が.?」、パターン4=「^(.+)、再起動せずにソフトを(.+)でください。」、パターン5=「^(.+)、?ソフトを(.+)でください。」が生成される(図12(b)の「パターン」を参照)。
なお、この実施形態の説明では、「^」は先頭、パターン内の第1番目の「(.+)」は正規インスタンスの条件表現に対応する文字列、パターン内の2番目の「(.+)」は正規インスタンスの症状表現に対応する文字列を表してある。また、「」は0語以上の語があり得ることを意味し、「?」は該当する記述(例えば、「たまに」)があってもなくてもよいことを意味する。
次に、パターン信頼性評価部105は、生成されたパターンの第2信頼度を算出する(ステップS124)。この第2信頼度の算出処理は、本実施形態においても第1実施形態で説明したものと同様に、第1信頼度(式(2)の計算結果)×一致度(式(3)と同様の計算)により行われる。例えば、上述したパターン1〜5の第1信頼度がそれぞれ、0.6、0.9、0.5、0.8、0.7で、パターン1〜5の一致度がそれぞれ、1、0.9、0.8、0.2、0.3の場合(この実施形態では、パターン1は、抽出元のパターンが存在しないため、正解インスタンスに対応するパターンとみなし、パターン1の一致度を例えば「1」とする。)、パターン1〜5の第2信頼度はそれぞれ、例えば(対応する第1信頼度)×(対応する一致度)となるため、次のとおりとなる。
・パターン1の第2信頼度:0.6(=0.6×1)
・パターン2の第2信頼度:0.72(=0.9×0.8)
・パターン3の第2信頼度:0.45(=0.5×0.9)
・パターン4の第2信頼度:0.16(=0.8×0.2)
・パターン5の第2信頼度:0.21(=0.7×0.3)
パターン1〜5の第2信頼度は、パターン記憶部106に記憶される(図12(b)の「第2信頼度」を参照)。
次に、インスタンス抽出部107は、パターンに一致する新規インスタンスを、文書記憶部101の文書集合から抽出する(ステップS125)。ステップS125では、パターンは、閾値(例えば0.2等)以上の第2信頼度を有するものが選択される。
インスタンス抽出部107は、文書記憶部101を参照し、一致した新規インスタンスを含む文を検索してその文IDを取得するとともに、一致する新規インスタンス部分の開始位置および終了位置を取得し、これらのデータをインスタンス記憶部110に記憶する(図12(b)のS125で抽出された新規インスタンスを参照)。
なお、ステップS125では、例えば、上述したパターン2、3に対応する下記仮インスタンス(「インスタンス1」ともいう。)、および、上述したパターン4、5に対応する下記仮インスタンス(「インスタンス2」ともいう。)も抽出される。
・インスタンス1:例えば「<条件>アップデートした後</条件>、再起動せずにソフトを<症状>起動しない</症状>でください。」(パターン2、3に対応する)
・インスタンス2:例えば、「<条件>アップデートした後</条件>、再起動せずにソフトを<症状>起動しない</症状>でください。」(パターン4、5に対応する)
さらに、この例では、次のようなインスタンス3〜6も抽出される。
・インスタンス3:「<条件>OSアップデートを実施したら</条件>、<症状>PCが起動しない</症状>ことがある。」(パターン1に対応する)
・インスタンス4:「<条件>インストールした後、毎回発生するわけではないが</条件>、たまに<症状>動作が遅い</症状>場合があります。」(パターン2に対応する)
・インスタンス5:「<条件>インストールした後</条件>、なぜか毎回発生するわけではないが、<症状>動作が遅い</症状>場合があります。」(パターン3に対応する)
・インスタンス6:「<条件>著作権保護のため</条件>、コピーソフトを<症状>インストールしない</症状>でください。」((パターン5に対応する)
次に、インスタンス信頼性評価部108は、新規インスタンスの第2信頼度を算出する(ステップS126)。この第2信頼度の算出処理は、(1)新規インスタンスの第1信頼度の計算処理と、(2)新規インスタンスの一致度の計算処理と、(3)新規インスタンスの第2信頼度の計算処理とを含む。
(1)新規インスタンスの第1信頼度の計算処理
新規インスタンスの第1信頼度の計算処理では、例えば、{(対応するパターンの第2信頼度)×(対応するインスタンスの第1信頼度=式(1)の計算結果)}/(対応するパターンの数)の式によって求められる。例えば、図10のフローチャートの例によれば、インスタンス1は、2つのパターン2、3に対応し、パターン2、3の各第2信頼度はそれぞれ0.72、0.45である。そして、インスタンス1の第1信頼度は例えば0.8(式(1)の計算結果)になる。この結果、インスタンス1の第1信頼度は、{(0.72×0.8)+(0.45×0.8)}/2から0.468になる。
同様に計算すると、上述したインスタンス2〜6の第1信頼度は以下のとおりになる。
・インスタンス2の第1信頼度:0.148(={(0.16×0.8)+(0.21×0.8)}/2)
・インスタンス3の第1信頼度:0.54(=0.6×0.9)
・インスタンス4の第1信頼度:0.72(=0.72×1.0)
・インスタンス5の第1信頼度:0.405(=0.45×0.9)
・インスタンス6の第1信頼度:0.189(=0.21×0.9)
(2)新規インスタンスの一致度の計算処理
新規インスタンスの一致度の計算処理では、インスタンス信頼性評価部108は、各インスタンスを抽出したパターン(例えば、インスタンス3の場合は、パターン1)を生成した元となるインスタンス(群)のIDをパターン記憶部106の「生成元インスタンスペア」(図12(b))から取得する。そして、インスタンス信頼性評価部108は、その生成元インスタンスペア(群)のIDをキーとして、インスタンス記憶部110(図12(a)参照)から、抽出元文IDを抽出し、さらには、その抽出元文IDに対応する開始位置および終了位置を取得する。さらに、インスタンス信頼性評価部108は、上記抽出元文IDに基に、解析結果記憶部103(図6参照)から、対応する文の形態素解析・係り受け解析結果を取得し、上記開始位置から上記終了位置までの形態素の情報を取得する。
そして、インスタンス信頼性評価部108は、取得した形態素の情報を参照して、ステップS125で抽出された新規インスタンスと、その生成元のインスタンスとが一致するか否かに基づいて、新規インスタンスの一致度を計算する。この一致度は、第1実施形態における式(3)で示したものと同一である。このとき、新規インスタンスはペアのインスタンス、すなわち2つの表現種別(この実施形態では、例えば、条件および症状)を有するため、表現種別ごとに一致度を計算し、それぞれの表現種別の一致度を乗算するようにする。
例えば、インスタンス3の場合、パターン1から抽出されることになるので、パターン1を生成した元のインスタンスはインスタンス1となるので、インスタンス3とインスタンス1とを対象として、式(3)に示した一致度が計算される。ここで、インスタンス3とインスタンス1の条件および症状の表現は以下のとおりである。
インスタンス3:
<条件>OSアップデートを実施したら
<症状>PCが起動しない
インスタンス1:
<条件>アップデートした後
<症状>起動しない
この場合、式(3)を用いて、条件の一致度=0.6、症状の一致度=0.9が計算され、インスタンス3の一致度は、0.6×0.9=0.54となる。
同様に、インスタンス1、2、4〜6の一致度は以下のとおりである。
・インスタンス1の一致度:1.0(=1.0×1.0)
・インスタンス2の一致度:1.0(=1.0×1.0)
・インスタンス4の一致度:0.12(=0.2×0.6)
・インスタンス5の一致度:0.54(=0.9×0.6)
・インスタンス6の一致度:0.24(=0.3×0.8)
(3)新規インスタンスの第2信頼度の計算処理
新規インスタンスの第2信頼度の計算処理では、(1)で求めた第1信頼度×(2)で求めた一致度によって、第2信頼度が計算される。その結果、インスタンス1〜6の各第2信頼度は以下のとおりである。
・インスタンス1の第2信頼度:0.468(=0.468×1.0)
・インスタンス2の第2信頼度:0.148(=0.148×1.0)
・インスタンス3の第2信頼度:0.340(=0.54×0.63)
・インスタンス4の第2信頼度:0.086(=0.72×0.12)
・インスタンス5の第2信頼度:0.219(=0.405×0.54)
・インスタンス6の第2信頼度:0.045(=0.189×0.24)
インスタンス信頼性評価部108は、計算された各第2信頼度を、インスタンス記憶部110に記憶する(図12(a)の「第2信頼度」を参照)。
次に、インスタンス絞込部109は、第2信頼度が閾値以上の新規インスタンスに絞り込む(ステップS127)。図11の例では、例えば閾値が0.2の場合、インスタンス絞込部109は、インスタンス1、3、5を選択して抽出し、この抽出の可否を示すデータ(true、または、false)をインスタンス記憶部110に書き込む(図12(a)の「抽出可否」を参照)。
ステップS138において、終了条件を満たさない場合(ステップS139のNO)は、抽出されたインスタンスの上位N個を正解インスタンスとして、ステップS132に進む。終了条件は、例えば、閾値0.3以上の新規インスタンスが1つも存在しない場合、新規インスタンスがM個以上抽出されない場合等である。
図13は、単一のインスタンスの抽出処理の一例を示すフローチャートである。図14は、図13の単一のインスタンスの抽出処理時における各記憶部110、113のデータ構成であって、(a)はインスタンス記憶部110のデータ構成、(b)は単一パターン記憶部114のデータ構成を示す。
図13において、単一インスタンス抽出部113は、図11のステップS121と同様に、全文書の中から単一の正解インスタンスの表現を含む仮インスタンスを抽出する(ステップS131)。この図13の例では、単一の正解インスタンスの一例として、「時々、<症状>画面がうつらない</症状>ことがあります。」が与えられ、インスタンス記憶部110に記憶される(図14(a)を参照)。そして、単一パターン生成部111は、図11のステップS122およびS123と同様に、正解インスタンスおよび仮インスタンスの周辺情報を取得し(ステップS132)、周辺情報から単一インスタンスを抽出するための単一パターンを生成する(ステップS133)。単一パターン生成部111は、これらの単一パターンを単一パターン記憶部114に記憶する(図14(b)を参照)。
単一パターン信頼性評価部112は、図11のステップS124と同様に、生成された単一パターンの第2信頼度を算出する(ステップS134)。単一パターン信頼性評価部112は、各第2信頼度を単一パターン記憶部114に記憶する(図14(b)を参照)。
単一インスタンス抽出部113は、図11のステップS125と同様に、生成された単一パターンに一致する単一の新規インスタンスを文書集合から抽出する(ステップS135)。そして、単一インスタンス信頼性評価部115は、図11のステップS126と同様に、抽出された新規の単一インスタンスの第2信頼度を算出する(ステップS136)。単一インスタンス信頼性評価部115は、新規インスタンスの各第2信頼度をインスタンス記憶部110に記憶する(図14(a)を参照)。
単一インスタンス信頼性再評価部116は、ステップS134で算出された単一インスタンスの第2信頼度について、図11のステップS127で絞り込まれたインスタンスと、図11のステップS125におけるパターンとの結果と参照して再算出する(ステップS137)。この第2信頼度の再算出処理は、(1)単一インスタンスの一致度の計算処理と、(2)単一インスタンスの抽出元パターンの一致度の計算処理と、(3)単一インスタンスの第2信頼度の再計算処理とを含む。
(1)単一インスタンスの一致度の計算処理
単一インスタンスの一致度の計算処理では、単一インスタンス信頼性再評価部116は、各単一インスタンス(例えば、図14(a)のインスタンスID=I0016〜I0020)に基づいて、解析結果記憶部103(図6参照)から、対応するインスタンスの形態素解析・係り受け解析結果(形態素の情報)を取得する。また、単一インスタンス信頼性再評価部116は、単一インスタンスの表現種別(例えば、症状)と同一のペアのインスタンス((図11のステップS127で絞り込まれたもの、つまり、図12(a)の抽出可否がtrueを示すもの)の形態素の情報を、解析結果記憶部103(図6参照)から取得する。そして、単一インスタンス信頼性再評価部116は、上記取得対象の単一インスタンスと、上記取得対象のペアのインスタンスとが一致するか否かに基づいて、単一インスタンスの一致度を計算する。この一致度は、第1実施形態における式(3)で示したものと同一である。このとき、比較対象となるペアのインスタンスは複数存在することが考えられるため、単一インスタンスの一致度は、複数の一致度の平均値としてもよいし、得られた一致度の最大値としてもよい。
例えば、インスタンスID=I0016(図14(a))の場合、症状種別の単一インスタンスとして、例えば「画面がうつらない」が与えられるので、比較対象となる下記ペアのインスタンス(図12(a))との一致度は例えば以下のとおりになる。
・インスタンスID=I0002、I0004:「起動しない」:一致度=0.5
・インスタンスID=I0008:「起動しない」:一致度=0.7
・インスタンスID=I0012:「動作が遅い」:一致度=0.3
この結果、インスタンスID=I0016の単一インスタンスの一致度は、例えば0.7(最大値)となる。
ここで、上記3つの一致度の最大値を採用すると、ペアのインスタンスの形態素情報の一致度は0.7となる。
同様に計算すると、インスタンスID=I0017〜I0020の一致度は例えば以下のとおりである。
・インスタンスID=I0017の一致度:0.7
・インスタンスID=I0018の一致度:0.9
・インスタンスID=I0019の一致度:1.5
・インスタンスID=I0020の一致度:0.2
(2)単一インスタンスの抽出元パターンの一致度の計算処理
単一インスタンスの抽出元パターンの一致度の計算処理では、単一インスタンス信頼性再評価部116は、各単一インスタンス(例えば、図14(a)のインスタンスID=I0016〜I0020)の抽出元パターンIDを、インスタンス記憶部110から取得する。また、単一インスタンス信頼性再評価部116は、抽出元パターンIDに基づいて、対応するパターンの内、インスタンス以外の部分の形態素の情報を解析結果記憶部103(図6参照)から取得する。さらに、単一インスタンス信頼性再評価部116は、図11のステップS125におけるパターン(閾値以上の第2信頼度を有するもの)の内、単一インスタンスと表現種別が同じインスタンス以外の部分の形態素の情報を、当該パターンIDに対応する生成元インスタンスペアID、抽出元文ID、開始位置および終了位置等の情報に基づいて、解析結果記憶部103(図6参照)から取得する。そして、単一インスタンス信頼性再評価部116は、上記単一インスタンスに対応するパターンと、上記取得対象のペアのインスタンス(単一インスタンスと表現種別が同じインスタンス部分を除く)とが一致するか否かに基づいて、単一インスタンスの抽出元パターンの一致度を計算する。この一致度は、第1実施形態における式(3)で示したものと同一である。このとき、比較対象となるペアのパターンは複数存在することが考えられるため、パターンの一致度は、複数の一致度の平均値としてもよいし、得られた一致度の最大値としてもよい。
例えば、インスタンスID=I0016(図14(a))の場合、抽出元パターンとして、例えば抽出元パターンID=SP0002(図14(a))の「ことがあり困っています」(症状種別)が与えられ、比較対象となる下記ペアのパターン(症状種別との一致度は例えば以下のとおりになる。なお、P0001、P0002およびP0003はパターンIDを表してある(図12(a))。
・「、」「ことがある。」(P0001):一致度=0.7
・「、たまに」「場合があり」(P0002):一致度=0.4
・「、」「場合が」(P0003):一致度=0.3
この結果、インスタンスID=I0016の抽出元パターンの一致度は、例えば0.7(最大値)となる。
同様に計算すると、インスタンスID=I0017〜I0020に対応するパターンの一致度は例えば以下のとおりである。
・インスタンスID=I0017の一致度:0.4
・インスタンスID=I0018の一致度:0.7
・インスタンスID=I0019の一致度:0.6
・インスタンスID=I0020の一致度:0.4
(3)単一インスタンスの第2信頼度の再計算処理
単一インスタンスの第2信頼度の再計算処理では、(1)で求めたインスタンスの一致度×(2)で求めたパターンの一致度によって、第2信頼度が再計算される。その結果、単一インスタンスの各第2信頼度は以下のとおりになる。なお、両者の一致度を加算してもよい。
・インスタンスID=I0016の第2信頼度:0.65(=(0.7+0.6)/2)
・インスタンスID=I0017の第2信頼度:0.55(=(0.7+0.4)/2)
・インスタンスID=I0018の第2信頼度:0.80(=(0.9+0.7)/2)
・インスタンスID=I0019の第2信頼度:0.55(=(0.5+0.6)/2)
・インスタンスID=I0020の第2信頼度:0.30(=(0.2+0.4)/2)
インスタンス信頼性評価部108は、再計算された各第2信頼度を、インスタンス記憶部110に記憶する(図12(a)の「第2信頼度」を参照)。
次に、単一インスタンス絞込部117は、図11のステップS128と同様、第2信頼度が閾値以上の単一インスタンスに絞り込む(ステップS138)。図13の例では、例えば閾値が0.2の場合、インスタンス絞込部109は、インスタンスID=I0016〜I0019に対応するインスタンスを選択して抽出し、この抽出の可否を示すデータ(true、または、false)をインスタンス記憶部110に書き込む(図14(a)の「抽出可否」を参照)。
終了条件を満たさない場合(ステップS139のNO)は、抽出されたインスタンスの上位N個を正解インスタンスとして、ステップS132に進む。終了条件は、例えば、閾値0.3以上の新規インスタンスが1つも存在しない場合、単一インスタンスがM個以上抽出されない場合等である。このようにして、単一の句表現の抽出が終了する。
以上説明したように、本実施形態の言語表現抽出装置100によれば、ペアの句表現の組み合わせを用いてペアのインスタンスを抽出し(図10のステップS12)、そのペアのインスタンスに対する信頼性の評価結果に応じて、単一のインスタンスの信頼性を変更する(図10のステップS13)。ここで、信頼性の変更は、単一のインスタンスと、その単一のインスタンスと同じ表現種別を有するペアのインスタンスとが一致する度合いに基づいて行われるので、ペアのインスタンスとの関係に応じて、単一のインスタンスが抽出されるようになる。これにより、インスタンスの誤抽出が防止できる。また、文中に1つの表現しか存在しない場合でも、ペアのインスタンスとの関係を考慮することで、インスタンスとして抽出することができるようになる。
<第3実施形態>
第2実施形態では、言語表現抽出装置の一例として、初期の正解インスタンスに対応するインスタンスを抽出した後にパターンを生成する場合について説明したが、この実施形態では、パターンを生成した後にインスタンスを抽出するようにした言語表現抽出装置100Aとしている。
図15に本実施形態の言語表現抽出装置100Aの構成例を示す。なお、図15では、図4に示した言語表現抽出装置100と同一の構成要素については同一の符号を付している。この実施形態における言語表現抽出装置100Aの構成は、第2実施形態で説明したもの(図4参照)とほぼ同様である。これは、図11のフローチャートにおいて、与えられた初期の正解パターンを基準にしてステップS125から処理が開始し、S126→S127→S128→・・・と進んでいくことになる。また、図13のフローチャートにおいて、与えられた単一の正解パターンを基準にしてステップS135から処理が開始し、S136→S137→S138→・・・と進んでいくことになる。
この結果、第3実施形態の言語表現抽出装置100Aでも、第2実施形態のものと同様に、ペアのインスタンスとの関係に応じて、単一のインスタンスが抽出されるようになる。
次に、第1実施形態の言語表現抽出装置10の変形例1〜3について説明する。
(変形例1)
第1実施形態の変形例1に係る言語表現抽出装置では、上述した仮インスタンスの一致度は、第1実施形態で例示したものに限られず、様々な設定が可能である。例えば、各インスタンスを構成するすべての形態素の内、語尾に位置する形態素(特徴)が一致するか否か(一致する場合の「1」、または、不一致の場合の「0」)に基づいて、計算しても構わない。例えば、図2では、正解インスタンスの語尾に対応する形態素として、「後」(名詞−非自立−副詞可能)という品詞が与えられ、仮インスタンスの語尾に対応する文字として、「ら」(助動詞)という品詞が与えられるので、両者の一致度は、「0」となる。
また、語尾に位置する表層(特徴)が一致するか否かに基づいて、一致度を計算してもよい。例えば図2の例では、「後」および「ら」がそれぞれ対応する語尾の表層となるので、一致度は、「0」として設定される。
また、例えば、上述した形態素すべてを対象とした一致度(式(3)の計算結果)と、上述した語尾の品詞を対象とした一致度と、上述した表層を対象とした一致度とを組み合わせて(例えば、3つの一致度の平均値)一致度を計算してもよい。あるいは、3つの一致度の内、任意の一致度の平均値を計算してもよい。
あるいは、各インスタンス中の全形態素の内、所定の位置(例えば、第1番目のみ、または、第1番目から第3番目まで、等)に存在する形態素(特徴)を対象として、式(3)に示した一致度を計算するようにしてもよい。
さらに、例えば、複数の仮インスタンスの上記一致度(例えば、式(3)の計算結果)を平均化して、その平均値を、それらの仮インスタンスの一致度としてもよい。あるいは、複数の仮インスタンスの上記一致度(例えば、式(3)の計算結果)の内、最大値を、それらの仮インスタンスの一致度としてもよい。
(変形例2)
第1実施形態の変形例2に係る言語表現抽出装置においても、正確なインスタンスを抽出できるようにするため、図11に示したものと同様に、パターンの第2信頼度を算出することで、インスタンスの決定を行うようにしてもよい。図1、図3および図13を参照して、そのときの動作について説明する。
変形例2の言語表現抽出装置では、図3のインスタンスの抽出処理(ステップS4)後、図13に示したステップS132→S133→S134→S135→S136→S138→S139の処理を繰り返すことになる。この場合、図3に示したステップS4の後に、抽出部12はさらに、ステップS4において決定されたインスタンスを含む文字列表現の第2の抽出パターン(以下、第2パターンという。)を生成し、この第2パターンに基づいて、文書に含まれる文字列表現を、仮インタンスとして抽出する。次に、評価部13は、正解インスタンスのパターンと、上記第2パターンとに基づいて、第2パターンに対する信頼性を評価する。この評価結果(第2パターンの第2信頼度)は、ステップS3で説明したものと同様に、例えば、上述した第2パターンの第1信頼度(式(2)の計算結果)と一致度とが乗算または加算されて得られる。そして、決定部14は、抽出部12によって抽出された仮インスタンスに信頼性の評価結果と、上記第2パターンの評価結果とに応じて、パターンを選択する。例えば、仮インスタンスに信頼性の評価結果を示す第2信頼度と、上記第2パターンの評価結果を示す第2信頼度とを乗算した値が閾値以上のパターンが選択される。上述した抽出部12、評価部13および決定部14の各処理は、一連の処理として繰り返し実行されることになる。
この結果、インスタンスが絞り込まれて決定される。これにより、正解インスタンスが本来意図する内容とは関係のない表現を含むパターン(文脈が異なるもの)が生成されず、所望のインスタンスが正確に抽出される。例えば、正解インスタンスを表す不具合の表現として、「Aソフトをインストールした後、PCが起動しない。」という文の「PCが起動しない」が登録されている場合、抽出部12は、「アップデートした後、起動しないことがある。」という文については、正規インスタンスが意図する不具合を記述するので、パターンの信頼性が高くなり、パターンとして生成することとなる。
一方、「アップデートした後、再起動せずにソフトを起動しないでください。」という文については、正規インスタンスの「PCが起動しない」と同様の表現(「ソフトを起動しない」)を含むものの、正規インスタンスが本来意図する不具合とは関係のない内容を表すので、パターンの信頼性が低くなり、このような文がパターンとして生成されなくなる。よって、所望のインスタンスが正確に抽出されやすくなる。
(変形例3)
第1実施形態の変形例3に係る言語表現抽出装置では、抽出部12において、文書データに含まれる仮インスタンスの文字列表現の直前もしくは直後に存在する形態素、または、仮インスタンスの文字列表現の係りもしくは受け側に存在する形態素を参照してパターンを生成してもよい。例えば、仮インスタンスが正解インスタンスとは異なる文脈で使用されている場合に、そのような仮インスタンスを排除することができ、これにより、正確なインスタンスの抽出が行える。
10,100,100A 言語表現抽出装置
11 登録部
12 抽出部
13 評価部
14 決定部
104 パターン生成部
105 パターン信頼性評価部
106 インスタンス抽出部
107 インスタンス信頼性評価部
108 インスタンス絞込部
111 単一パターン生成部
112 単一パターン信頼性評価部
113 単一インスタンス抽出部
114 単一パターン記憶部
115 単一インスタンス信頼性評価部
116 単一インスタンス信頼性再評価部
117 単一インスタンス絞込部

Claims (7)

  1. 特定の文字列からなる句表現を正解データとして登録する登録部と、
    抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出する抽出部と、
    前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価する評価部と、
    前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定する決定部と、
    を含むことを特徴とする言語表現抽出装置。
  2. 前記抽出部は、前記決定部によって決定された前記抽出対象の文字列表現を含む文字列の第2の抽出パターンを生成し、前記第2の抽出パターンに基づいて前記文書データに含まれる文字列表現を、抽出候補として抽出し、 前記評価部は、前記抽出パターンと前記第2の抽出パターンとに基づいて、前記第2の抽出パターンに対する信頼性を評価し、
    前記決定部は、前記抽出候補に対する信頼性の評価結果と、前記抽出パターンに対する信頼性の評価結果とに応じて、前記抽出パターンを選択し、
    前記抽出部、前記評価部および前記決定部の各処理は、一連の処理として繰り返し実行されるように構成されている
    ことを特徴とする請求項1に記載の言語表現抽出装置。
  3. 前記評価部は、ペアの句表現を正解データとして登録した場合にはさらに、前記ペアの句表現に基づいて抽出された抽出結果と、前記抽出候補とが一致する度合いに応じて、前記抽出候補に対する信頼性を変更することを特徴とする請求項1または2に記載の言語表現抽出装置。
  4. 前記抽出パターンは、前記文書データに含まれる前記抽出候補の前記文字列表現の直前もしくは直後に存在する形態素、または、前記抽出候補の前記文字列表現の係りもしくは受け側に存在する形態素を参照して生成されることを特徴とする請求項1ないし3のいずれか1項に記載の言語表現抽出装置。
  5. 前記評価部は、前記抽出候補の前記文字列表現内のすべての形態素列の構成と、前記正解データの前記句表現内のすべての形態素列の構成とが一致する度合いに基づいて、前記信頼性を評価することを特徴とする請求項1ないし4のいずれか1項に記載の言語表現抽出装置。
  6. コンピュータによって実行される言語表現抽出方法であって、
    特定の文字列からなる句表現を正解データとして登録するステップと、
    抽出対象となる文書データの中から前記句表現を含む文字列の抽出パターンを生成し、抽出パターンに基づいて、前記文書データに含まれる文字列表現を、抽出候補として抽出するステップと、
    前記抽出候補の前記文字列表現の特徴と、前記正解データの前記句表現の特徴とが一致する度合いに基づいて、前記抽出候補に対する信頼性を評価するステップと、
    前記信頼性の評価結果に応じて、前記抽出候補の中から絞り込まれた抽出候補の前記文字列表現を、抽出対象として決定するステップと、
    を含むことを特徴とする言語表現抽出方法。
  7. 請求項6に記載の言語表現抽出方法をコンピュータに実行させるためのプログラム。
JP2013073663A 2013-03-29 2013-03-29 言語表現抽出装置、言語表現抽出方法およびプログラム Pending JP2014199475A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013073663A JP2014199475A (ja) 2013-03-29 2013-03-29 言語表現抽出装置、言語表現抽出方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013073663A JP2014199475A (ja) 2013-03-29 2013-03-29 言語表現抽出装置、言語表現抽出方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2014199475A true JP2014199475A (ja) 2014-10-23

Family

ID=52356359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013073663A Pending JP2014199475A (ja) 2013-03-29 2013-03-29 言語表現抽出装置、言語表現抽出方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2014199475A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6635460B1 (ja) * 2019-06-14 2020-01-22 ソプラ株式会社 情報生成装置、コーパスの生産方法、およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009113289A1 (ja) * 2008-03-12 2009-09-17 日本電気株式会社 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009113289A1 (ja) * 2008-03-12 2009-09-17 日本電気株式会社 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6016019455; 坂地 泰紀、野中 尋史、酒井 浩之、増山 繁: 'Cross-Bootstrapping:特許文書からの課題・効果表現対の自動抽出手法' 電子情報通信学会論文誌 第J93-D巻,第6号, 20100601, p.742-755, 社団法人電子情報通信学会 *
JPN6016042808; Patrick Pantel,Marco Pennacchiotti: 'Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations' [online] [検索日 2016.10.31], 20060717, p.113-120, Association for Computational Linguistics *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6635460B1 (ja) * 2019-06-14 2020-01-22 ソプラ株式会社 情報生成装置、コーパスの生産方法、およびプログラム

Similar Documents

Publication Publication Date Title
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
US9483460B2 (en) Automated formation of specialized dictionaries
CN106462604B (zh) 识别查询意图
AU2015203818B2 (en) Providing contextual information associated with a source document using information from external reference documents
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
US20120089394A1 (en) Visual Display of Semantic Information
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US20170060845A1 (en) Dynamic Portmanteau Word Semantic Identification
US10255047B2 (en) Source code analysis and adjustment system
US20210064697A1 (en) List-based entity name detection
US20100125725A1 (en) Method and system for automatically detecting keyboard layout in order to improve the quality of spelling suggestions and to recognize a keyboard mapping mismatch between a server and a remote user
EP3323065B1 (en) Suggestion-based differential diagnosis
US10509812B2 (en) Reducing translation volume and ensuring consistent text strings in software development
US10534788B2 (en) Automatically determining a recommended set of actions from operational data
JP5286125B2 (ja) 単語境界決定装置および形態素解析装置
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
RU2693328C2 (ru) Способы и системы для создания заменяющего запроса для введенного пользователем запроса
JP2014199475A (ja) 言語表現抽出装置、言語表現抽出方法およびプログラム
CN116166814A (zh) 事件检测方法、装置、设备以及存储介质
JP6546703B2 (ja) 自然言語処理装置及び自然言語処理方法
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
JP7211139B2 (ja) 校閲方法、情報処理装置および校閲プログラム
JP2010267047A (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP5348699B2 (ja) データ分類システム、データ分類方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161108