JP2011076524A - 文書解析装置および方法 - Google Patents

文書解析装置および方法 Download PDF

Info

Publication number
JP2011076524A
JP2011076524A JP2009229501A JP2009229501A JP2011076524A JP 2011076524 A JP2011076524 A JP 2011076524A JP 2009229501 A JP2009229501 A JP 2009229501A JP 2009229501 A JP2009229501 A JP 2009229501A JP 2011076524 A JP2011076524 A JP 2011076524A
Authority
JP
Japan
Prior art keywords
cumulative
singular value
order
ascending
singular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009229501A
Other languages
English (en)
Other versions
JP5404287B2 (ja
Inventor
Haruo Hayashi
春男 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SCIENCE CRAFT KK
Original Assignee
SCIENCE CRAFT KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SCIENCE CRAFT KK filed Critical SCIENCE CRAFT KK
Priority to JP2009229501A priority Critical patent/JP5404287B2/ja
Publication of JP2011076524A publication Critical patent/JP2011076524A/ja
Application granted granted Critical
Publication of JP5404287B2 publication Critical patent/JP5404287B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自由回答形式の記事(ドキュメント)を解析する。
【解決手段】文書解析装置10では、コンピュータ14が、昇順の累積特異値ΣD(i,ord,asc)および降順の累積特異値ΣD(i,ord,dsc)の相加平均、つまり平均累積特異値aveΣDを計算する。平均累積特異値は、代表キーワード値ということもでき、この代表キーワード値が自由回答形式の記述(記事:単位ドキュメント)の評価の1つの指標となる。さらに、特定上位の昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)を採用した上で、その記事(自由回答記述)がどの程度代表的な記事かを示す平均累積特異値総和aveΣΣD(j,ord,rank)および/または、その記事がどの程度特異的な記事かを示す差分累積特異値総和diffΣΣD(j,ord,rank)を求める。
【選択図】図1

Description

この発明は文書解析装置および方法に関し、特にたとえばニュース,ウェブニュース,ブログ,新聞および雑誌のように時系列的に増量する言語資料だけでなく、インタビュー記録,供述調書,アンケート,小説などのように時系列的に増量しない言語資料も有意に解析できる、新規な文書解析装置および方法に関する。
災害研究において、郵送法、面接法、留置法などによる質問紙を用いた社会調査は、災害に見舞われた被災地社会の実情や、リスクやリスク対策の住民意識を調査する手段の一つとして欠かせないものになっている。
質問紙の中には、選択肢の中から単一または複数の回答を選ぶフェイス項目をはじめとしたプリコード回答形式の質問項目と、自由な記述を記入する自由回答形式の質問項目がある。後者のうち、回答者の自由な意見や考えについて記入する質問項目は、慣例的に質問紙の末尾に設けられている。このような質問項目で得られるデータは、自由回答や自由回答記述などと呼ばれている。
災害の社会調査のほか、質問紙調査で得られる自由回答のデータの解析は非常に難しく、多くの社会調査で分析されないままに終わってきた。プリコード回答形式で得られたデータは、単純集計、クロス集計、多変量解析など系統的な分析手法が準備されているのに対し、自由回答形式で得られた自由回答記述は、集計が困難であり、分析に支障をきたし、報告書等の作成において自由回答記述そのものを列挙するだけになってしまうことが多い。たとえば、三宅島噴火災害の被災者を対象とした調査でも自由回答記述が得られているが、そのリポートは大まかな分類をもとに何ケースかが掲載されているにとどまっている。
自由回答形式の質問項目では、質問紙中のプリコード形式の質問では調査することのできない、重要な情報資料が得られることがある。特に、災害後の被災者に対する調査においては、災害後の不満や支障の内容について述べられることが多く、被災地社会の実情についての具体的で内容的なデータが得られることが期待され、これを適切に解析することの意義は大きい。
自由回答記述について分析された例としては、災害研究の分野において、1995年阪神・淡路大震災の被災世帯に対する質問紙調査で震災の教訓や体験について述べられた自由回答記述を生活再建7要素に分類された例や、類似する調査で被災者が他地域の人々に伝えたい教訓について求めた自由回答記述をKJ法によって分類・構造化された例などが、非特許文献1および2において知られている。ただし、これらは人手で行なわれており、分析に大きな労力を要したことが想像される。
一方、自由回答記述の分析手法を開発した研究が、これまでいくつか報告されている。これらは、自然言語処理技術とテキストマイニングを用いており、キーワードを単語の頻度などを使ってキーワードを抽出する方法(非特許文献3)、重要な自由回答記述を自動的に選定する方法(非特許文献4)、自由回答記述を自動的にクラスタリングする方法(非特許文献5など)などに大別される。
他方、本件発明者等は、特許文献1において、新規な文書解析装置および方法を提案した。この背景技術においては、災害や危機に関する言語資料体(コーパス)を、時間経過とともに増加するコーパスと捉え、TFIDFを修正した増加型TFIDFと特異値という指標を定義し、キーワードを自動抽出する。
林春男(編):震災後の居住地の変化とくらしの実情に関する調査、京都大学防災研究所巨大災害研究センター・テクニカルレポート、1999 中林一樹、福留邦洋、河上牧子:阪神・淡路大震災の被害者からの教訓‐兵庫区・長田区・須磨区でのアンケート・自由回答分析から‐地域安全学会梗概集、No.9、pp146‐149、1999 大隈昇、Ludovic Lebart:調査における自由回答データの解析‐InforMinerによる探索的テキスト型データ解析‐統計数理、Vol.48、No.2、pp339−376、2000 松村真宏、河原大輔、岡本雅史、黒橋禎夫、西田豊明:メッセージの背後に潜む「問い」の抽出、人口知能学会論文誌、Vol.22、No.1、pp93‐102、2007 乾裕子、田村真樹、内元清貴、井佐原均:表層表現に着目した自由回答アンケートの意図に基づく自動分類、自然言語処理、Vol.10、No2、pp14‐102、2007 WO 2008/062910 A1 [G06F 17/30]
特許文献1の背景技術は、時間経過とともに増加するコーパスを解析することを対象にするものであり、他方、自由回答記述は、ある一時点において収集、形成されたデータであり、実時間の上にはないため、時間という順序で並べることはできない。したがって、自由回答記述を含むコーパスを、特許文献1の背景技術で直接解析することはできない。
それゆえに、この発明の主たる目的は、新規な、文書解析装置および方法を提供することである。
この発明の他の目的は、自由回答記述などの時系列的に増量しない言語資料を解析できる、文書解析装置および方法を提供することである。
この発明のその他の目的は、特異値の概念に基づいて自由回答記述などの時系列的に増量しない言語資料を解析することができる、文書解析装置および方法を提供することである。
この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために後述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。
第1の発明は、順序基準に従って擬似的に増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求めるもの文書解析装置において、言語資料を順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算手段、言語資料を順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値算手段、および昇順累積特異値および降順累積特異値を平均して平均累積特異値を計算する平均累積特異値計算手段を備えることを特徴とする、文書解析装置である。
第1の発明では、文書解析装置は、典型的には、コンピュータで構成される。そして、背景技術では、時間経過とともに単位文書が増量する言語資料(コーパス)を対象としたが、この発明では、たとえば年齢、発生日時などの任意の順序基準で並べられ得る自由回答形式の記述に基づくコーパスを対象とする。ただし、各文書(コーパステキスト)を形態素解析した後、有意な形態素について、前コーパスまでに計算した回帰曲線に対して現コーパスでの残差分析を行なって特異語を抽出する手法はそのまま適用できる。
たとえば、形態素解析においては、たとえば日本語のように形態素が分割されていない言語体系のテキストデータである場合、たとえば茶筌(http://chasen.naist.jp/hiki/Cha
Sen/)のような形態素解析ツールを用いて、そのコーパステキストデータを形態素に分解して、各形態素に品詞情報を付加する。しかしながら、テキスト内の形態素が既に分割している、たとえば英語のような言語体系の場合には、形態素を分割する作業(分かち書き、tokenization)は必要ではなく、この形態素解析手段では、ステミング処理(stemming)によって,活用形を原形に直したのちに、たとえばタギング処理(tagging)によって、テキストを構成する各形態素に品位情報を付加する。
各形態素に付加された上述の品詞情報に基づいて、不要形態素として設定しておいた品詞の種類の形態素を取り除く。つまり、形態素解析の際に、各形態素に付与される品詞情報に基づいて、当該形態素を特異語および/または共通語の候補として採用するか否かを選定する。ただし、不要とする形態素の品詞の種類は、任意に設定できる。英文の場合には、ストップワード(stop word)と呼ばれる冠詞や前置詞からなる、極めて頻繁に使われるキーワードとして不適切な単語のリストを参照することによって、不要な形態素を取り除く。
コーパスに残った形態素の各々について、TF(Term Frequency)つまり単位ドキュメント中にそのキーワード候補が出現する頻度(延べ数)を計算し、さらに時間のパラメータ(順序基準)を考慮したIDF(Inversed Document Frequency)つまり他には出現していないという独自性値を計算することによって、当該コーパスにおける当該形態素の増加型TFIDF(Term Frequency Inversed Document Frequency)を「TF」×「IDF」として計算する。
そして、残差分析においては、たとえば、前コーパスにおいて推定しておいた該当の形態素の増加型TFIDFの累計値の推定値と、現コーパスでの増加型TFIDFの累計値の実測値との間で残差分析を行ない、その形態素の残差値(特異値)を求め、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する。
このような背景技術における残差分析の手法を用いて各形態素の累積特異値(ΣD)を計算するのであるが、昇順累積特異値計算手段(S31‐S35)は、コーパステキストを順序基準における昇順に並べて解析した際に得られる形態素毎の昇順累積特異値を計算し、降順累積特異値計算手段(S37‐S41)は、コーパステキストを順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する。
そして、平均累積特異値計算手段(S43)によって、昇順の累積特異値ΣD(i,ord,asc)および降順の累積特異値ΣD(i,ord,dsc)の相加平均、つまり平均累積特異値aveΣDを計算する。この平均化処理によって、着目した順序基準の特性を排除したより客観的な(または代表的な)解析結果を得ることができる。たとえば、順序基準として年齢を用いた場合、昇順累積特異値の大きい形態素(単語)は高齢層に特徴的な形態素であるが、降順累積特異値の大きい形態素(単語)は若年層に特徴的な形態素である。したがって、平均累積特異値はその形態素(キーワード)がたとえば若年層および高齢層の両方において顕著な程度、すなわちコーパス全体においてどの程度代表的なキーワードであるかを示すことになる。したがって、平均累積特異値は、代表キーワード値ということもでき、この代表キーワード値aveΣDが自由回答形式の記述(単位ドキュメント)の評価の1つの指標となる。
第2の発明は、第1の発明に従属し、昇順累積特異値および降順累積特異値の一方を2軸の一方とし他方を他方とする累積特異値グラフを表示する累積特異値グラフ表示手段をさらに備える、文書解析装置である。
第2の発明では、累積特異値グラフ表示手段(S45)が、たとえば、縦軸に昇順累積特異値をとり横軸に降順累積特異値をとった累積特異値グラフ(図21)を表示する。このグラフを見れば、順序基準、たとえばインシデントの発生年月日の古い年代の記事に特徴的なキーワードを横軸方向の値が大きい所に、また新しい時代に特徴的なキーワードを縦軸方向の値の大きいところに、容易に見つけることができる。
第3の発明は、第1または第2の発明に従属し、特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算手段、特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算手段、および昇順累積特異値総和および降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算手段をさらに備える、文書解析装置である。
上述の昇順/降順累積特異値ΣDはその単語(形態素)が順序基準の昇順/降順においてどの程度重要かを示す指標である。したがって、累積特異値ΣDが大きく、したがって、高い重みを持つ形態素(単語)を多く含む記事ほど、重要な自由記述(記事)であるという考えが成立する。第3の発明では、1つのコーパスデータの中にどの程度重要な形態素が含まれているかを示すΣΣD(累積特異値総和)を採用する。ただし、ΣΣDをそのまま採用すると、数値が記述文の長さ(単語の数)に影響されるという問題があるばかりでなく、累積特異値ΣDは、コーパスに含まれる各文書を順序基準の昇順に並べるか降順に並べるかによって影響を受けるので、各形態素の累積特異値ΣDの各文書(記事)中における総和である累積特異値総和ΣΣDも昇順/降順の影響を受ける。コーパスの影響を排除するため、第3の発明では、特定上位の昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)を採用した上で、平均累積特異値総和計算手段(S63)が昇順累積特異値総和および降順累積特異値総和の相加平均を計算して平均累積特異値総和aveΣΣD(j,ord,rank)を求める。
順序基準に従う昇順累積特異値ΣD(j,ord,asc,rank)および順序基準に従う降順累積特異値ΣD(j,ord,dsc,rank)は、より具体的な意味を持つ形態素(単語)が高い値を示す。したがって、そのままこれらの単語とその重みを採用すれば、上記昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)ように、順序基準のどちらか一方の特性を強く示す。他方で、順序基準の効果を求めない、均質的な代表値も必要になる。そこで、順序基準の効果を相殺するために、両指標の平均値をとることによって、その単位ドキュメント(自由回答記述)がどの程度代表的な記事かを示す指標として採用する。
第4の発明は、第3の発明に従属し、昇順累積特異値総和および降順累積特異値総和の差分を計算する累積特異値総和差分計算手段をさらに備える、文書解析装置である。
第4の発明では、累積特異値総和差分計算手段(S65)が昇順累積特異値総和および降順累積特異値総和の差分を計算する。昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)が高い値を示す自由回答記述は、双方の特徴をよく表す記述内容になるが、中には、両方の特徴をもつような自由回答記述が存在する可能性があり、順序基準の効果を適切に表すことができない場合も生じる。そこで、第4の発明においては、昇順累積特異値総和および降順累積特異値総和の差を求め、その絶対値で順序基準の昇順/降順の性質を反映した重み付けを可能にした。これを差分累積特異値総和diffΣΣD(j,ord,rak)と呼び、順序基準の効果をより強調することができるようにした。
第5の発明は、第4の発明に従属し、平均累積特異値総和および累積特異値総和差分の一方を2軸の一方とし他方を他方とする累積特異値総和グラフを表示する累積特異値総和グラフ表示手段をさらに備える、文書解析装置である。
第5の発明では、累積特異値総和グラフ表示手段(S67)が、たとえば図24に示す累積特異値総和グラフを表示する。2軸の一方に平均累積特異値総和aveΣΣD(j,ord,rank)を示し、他方に差分累積特異値総和diffΣΣD(j,ord,rank)を示すグラフを表示することによって、コーパス全体を代表するような(平均累積特異値総和aveΣΣDが大きい)代表的な記事または事例を容易に見つけることができる。また、差分累積特異値総和diffΣΣD(j,ord,rank)の大小によってそのコーパス内の各記事を並べた順序基準における特徴が一層明確に把握できる。
第6の発明は、順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析方法であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求めるもの文書解析方法において、言語資料を順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、言語資料を順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算ステップ、および昇順累積特異値および降順累積特異値を相加平均して平均累積特異値を計算する平均累積特異値計算ステップを含むことを特徴とする、文書解析方法である。
第6の発明でも第1の発明と同様の効果が期待できる。
第7の発明は、順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求めるもの文書解析装置のコンピュータに、言語資料を順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、言語資料を順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値算ステップ、および昇順累積特異値および降順累積特異値を相加平均して代平均累積特異値を計算する平均累積特異値計算ステップを実行させることを特徴とする、文書解析プログラムである。
第7の発明でも第1の発明と同様の効果が期待できる。
第8の発明は、順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置において、言語資料を順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算手段、言語資料を順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算手段、特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算手段、特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算手段、および昇順累積特異値総和および降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算手段を備えることを特徴とする、文書解析装置である。
第8の発明では、第3の発明と同様の効果が期待できる。
第9の発明は、順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析方法において、言語資料を順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、言語資料を順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算ステップ、特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算ステップ、特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算ステップ、および昇順累積特異値総和および降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算ステップを含むことを特徴とする、文書解析方法である。
第9の発明でも、第3の発明と同様の効果が期待できる。
第10の発明は、順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置のコンピュータに、言語資料を順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、言語資料を順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値算ステップ、特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算ステップ、特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算ステップ、および昇順累積特異値総和および降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算ステップを実行させることを特徴とする、文書解析プログラムである。
第10の発明でも第3の発明と同様の効果が期待できる。
この発明によれば、適宜の順序基準に従って自由回答記述(単位ドキュメント)を並べてコーパスを作成することによって、自由回答記述を解析して代表的キーワードなどを選定することができる。
この発明の上述の目的,その他の目的,特徴,および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1はこの発明の背景となる文書解析装置を示すブロック図である。 図2はこの文書解析装置で用いられるテキストデータテーブルの一例を示す図解図である。 図3は図1の文書解析装置のコンピュータの動作の一例を示すフロー図である。 図4は時間とともに増加するコーパスの一例を示す図解図である。 図5は各記事および形態素の出現頻度の解析結果の一例を示す表である。 図6は各記事および形態素に対する単位ドキュメント数Nを示す表である。図6(A)は言語資料体が一定量である一般的な場合(時間の経過とともに増加しない場合)を示し、図6(B)は時系列的に増量する言語資料体を解析する場合を示す。図6(A)は,他の図(図5〜8)との表記を統一させるために,表示例の形態素(t1,t2,t3・・・)毎に単位ドキュメント数Nを示してある。 図7は各記事および形態素に対するDFを示す表である。図7(A)は言語資料体が一定量である一般的な場合(時間の経過とともに増加しない場合)を示し、図7(B)は時系列的に増量する言語資料体の場合を示す。 図8は各記事および形態素に対するTFIDF(A)および増加型TFIDF(B)を示す表である。図8(A)は言語資料体が一定量である一般的な場合(時間の経過とともに増加しない場合)を示し、図8(B)は時系列的に増量する言語資料体の場合を示す。 図9は回帰曲線の一例を示す図解図である。 図10は回帰曲線とそれに対する残差(正負)を示すグラフであり、横軸にTFの総和を、縦軸に増加型TFIDFの総和をとる。 図11は図1に示す文書解析装置のモニタに表示される1つの表示例を示す図解図である。 図12は図1に示す文書解析装置のモニタに表示される別の表示例を示す図解図である。 図13はコーパスと回帰曲線との関係を示す図解図である。 図14はこの発明の一実施例である文書解析装置を示すブロック図である。 図15は図14実施例で解析可能な自由回答形式の調査票の一例を示す図解図である。 図16は図14実施例の文書解析装置においてモニタに表示されるGUIの一例を示す図解図である。 図16は図14実施例において代表キーワード値(平均累積特異値:aveΣD)を求めるためのコンピュータの動作を示すフロー図である。 図18は図17実施例における各特異語の平均累積特異値(aveΣD)を表示するグラフの一例を示す図解図である。 図19は図17実施例においてコーパスを昇順で並べた場合の各特異語の昇順累積特異値(ΣD(発生年月日,asc))を表示するグラフの一例を示す図解図である。 図20は図17実施例においてコーパスを降順に並べた場合の各特異語の降順累積特異値(ΣD(発生年月日,dsc))を表示するグラフの一例を示す図解図である。 図21は図17実施例において、縦軸が各特異語の昇順累積特異値(ΣD(発生年月日,asc))であり、横軸が各特異語の降順累積特異値(ΣD(発生年月日,dsc))であるグラフの一例を示す図解図である。 図22は図17実施例において、縦軸に各特異語の平均累積特異値(aveΣD)をとり、横軸に各特異語のTFIDF(i)をとるグラフの一例を示す図解図である。 図23は図14実施例において代表記事値(平均累積特異値総和:aveΣΣD)および累積特異値総和差分(diffΣΣD)求めるためのコンピュータの動作を示すフロー図である。 図24は図23実施例において、縦軸が平均累積特異値総和(aveΣΣD)であり、横軸が累積特異値総和差分(diffΣΣD)であるグラフの一例を示す図解図である。 図25は図23実施例において、Y軸に平均累積特異値総和(aveΣΣD)の階級、X軸に累積特異値総和差分(diffΣΣD)の階級、Z軸に各階級に該当するケース頻度をとった3次元グラフの一例を示す図解図である。
以下の説明では、図1‐図13を参照してこの発明の背景である文書解析装置を、本件発明の理解に必要な範囲で説明し、その後、図14‐図25を参照して本件発明の実施例を説明する。
図1に示すこの発明の背景となる文書解析装置10は、たとえばインターネットのような通信網(ネットワーク)12に有線または無線で結合されるコンピュータ14を含む。コンピュータ14には、基本的に、キーボードやマウスのような操作手段15Aおよび液晶表示器のようなモニタ15Bが設けられていて、このコンピュータ14には、さらに、テキストデータベース16および分析データベース18が付設される。コンピュータ14は当然、内部メモリを有し、その内部メモリ(図示せず)はワーキングメモリなどとして利用され、必要なプログラムを展開したり、計算して得られた結果データや、解析結果データ、さらにはその解析途中の各種データなどを一時的に記憶したりする。
テキストデータベース16には、たとえば、このコンピュータ14がネットワーク12を通して取得した時間順次のウェブニュースのテキストデータが逐次記憶され、コンピュータ14はこのウェブニュースのテキストデータを順次分析または解析することによって、時系列的に変遷する特異語および共通語(キーワード)を抽出する。
テキストデータベース16に蓄積されるテキストデータテーブル20の一例が図2に示される。テキストデータテーブル20は、具体的には、テキストデータで構成される言語資料から、任意の一定の大きさをもつ「単位ドキュメント」のテキストデータを1つのレコードに持つテーブルである。
単位ドキュメントの例としては、ウェブニュースの場合であれば、所定期間内の記事、1日の記事、1つの記事、1つの段落、1つの文などがある。新聞を例にとれば、1紙、1つの記事、1つの段落、1つの文などがある。文学作品(小説)などの場合には、1つの作品、1つの章、1つの段落、1つの文などがある。その他、ウェブ上のブログを解析対象とする場合には,1つの日記を単位ドキュメントとしたり、コールセンターへの1つの問い合わせや苦情などを単位ドキュメントにしたりするなど、言語資料に対して任意の単位を「単位ドキュメント」として定めて、データベース20を作成する。
図2に示すように、1つのレコードに対しては、数度やアルファベットなどで形成される識別子(ID番号)22およびテキストデータ24のほか、時間情報(時刻スタンプ)26をメタデータとして付与する。時間情報26には、ウェブニュース記事であれば発信日時、コールセンターへの問い合わせであれば問い合わせ時間などが該当する。この背景技術の文書解析装置10は、ニュースやブログなど時間とともに文字数が増加していく言語情報を対象としている。しかしながら、文学作品等のように常には更新されないような言語資料であっても、言語資料は線状性を有しているため、言語資料を読む人は、時間の経過ともに言語情報を理解することになる。したがって、小説や文学作品のように一見静的で時間情報を持たない言語資料については、図2に示す時間情報26のフィールドに、時間情報の代わりに順序情報(1章、2章…、1段落目、2段落目…、1文目、2文目…など)をメタデータとして付与すればよい。その他、必要に応じて任意のフィールド、たとえばタイトル26を設けて、データベーステーブル20を作成する。さらに、後に説明するこの発明の実施例が解析可能な自由回答記述の場合には、この時間(順序)情報としてたとえば、災害の社会調査における、回答者の年齢、家屋の被害程度、被害額、世帯年収などの順序基準を用い、その順序基準に従って各自由回答記述(単位ドキュメント)を並べるようにすれば、この背景技術の文書解析装置と同じ手法を適用することができる。また、通勤事情に関する自由回答形式の調査票を会席する場合には、たとえば、通勤時間や通勤に係る交通費を「順序基準」として採用することも可能である。
もし、このテキストデータテーブル20をコンピュータ14が作成するときには、たとえばコンピュータ14の中にインストールされている、DBMS(Data Base Management System:データベース管理システム)のようなアプリケーションを用いて、たとえばネットワーク12を通して取得したウェブニュースなどからテキストデータテーブルを作成することができる。
なお、図2に示す1つの識別記号(ID)22で区別されるかつ時系列(順序)情報26が付された1つの単位ドキュメントのテキストデータ24(図2)を含むものを、1レコードと呼ぶ。そして、言語資料体(コーパス)とは、このようなレコードの集合を意味する。
後述の背景技術の説明では、キーワード(特異語、共通語)を検出すべき時系列的に増量する言語資料体として、ウェブニュースを試用しているが、この種の言語資料としては、他に、新聞,雑誌,ブログ,インタビュー記録,供述調書,アンケート,小説,自由回答記述など任意の時間要素(順序基準要素)を含むデータが想定できる。
分析データベース18には、後述の形態素分析のための品詞辞書など、この実施例において文書解析に必要な全ての辞書や文法ルールなどを予め記憶しているとともに、解析結果も蓄積する。ただし、この分析データベース18は、上述のテキストデータベース16も同様であるが、コンピュータ14の内部メモリで構成されていてもよい。
コンピュータ14は、図3に示す文書解析プログラムに従って文書を解析してキーワードを抽出ないし検出する。
図3を参照して、最初のステップS1で、コンピュータ14は、設定時間が経過したかどうか判断する。「設定時間」とは、時系列的に増量する言語資料から、時系列順序を有する各コーパスを画定するための、区切りの時間(Δt)である。この「設定時間」はユーザが自由に設定できる。たとえば、状況変化が短時間で生じるような言語資料を分析する際には、短い設定時間(Δt)を設定すればよく、逆の言語資料の場合には、設定時間Δtを長くすればよい。Δtの例としては、1時間、10時間、100時間、1日、1週間、1ヶ月など挙げられる。また、このΔtを時間の経過とともに変更することも考えられる。一例として、災害発生から24時間経過するまではたとえばΔtを「1時間」に設定し、それ以降災害から3日目まではたとえばΔtを「10時間」に設定し、さらに1ヶ月以上経過したときにはたとえばΔtを「1日」として設定する。
そして、ユーザによって任意の設定時間が設定されると、その設定時間はコンピュータ14の適宜のメモリ領域(レジスタ)に記憶されるので、コンピュータ14は、内部の時計データをレジスタに設定された設定時間と比較することによって、ステップS1で設定時間が経過したかどうか、判断することができる。
ステップS1で“YES”が判断されると、続いてコンピュータ14はステップS3においてコーパス作成処理を実行し、設定時間(Δt)の間に増量した単位ドキュメントのテキストデータを、たとえば図2に示すテキストデータテーブル20から読み込み、今回のテキストコーパスC(t)を作成する。
図4に示すコーパスC(t)は現在時間のコーパスを示すが、このコーパスC(t)は、それぞれより時系列順序が先のコーパスC(t-Δt)より、設定時間Δt後に形成したコーパスである。つまり、コーパスC(t)は、直前のコーパスC(t-Δt)と増量分のコーパスCΔtとを合計したものである。
なお、「コーパス(corpus)」とは、言語分析のための文字言語、あるいは音声言語資料の集合体として定義されるもので、特に電子テキストで構築されたものを指し、一般には、電子的なオリジナルのテキスト群を収集したものを指すが、ここでは、上記の定義を広義にとらえ、オリジナルテキストに対して増加型TFIDFやTF(いずれも後述)の情報をもつ形態素群を便宜的にコーパスと呼ぶことにする。したがって、ここでいうテキストコーパスは、少なくとも1つのレコードつまり少なくとも1つの単位ドキュメントのテキストデータを含む言語資料体を意味するものと理解されたい。
続いて、ステップS5において、そのコーパスに含まれるテキストデータ24(図2)を形態素に分割し、品詞情報を付加する。ここで、形態素解析とは、自然言語で書かれた文を形態素(Morpheme、おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、品詞を見分ける言語処理のことである。参照する情報源として、対象言語の文法の知識(ここでは文法のルールの集まり)と辞書(品詞等の情報付きの単語リスト)を用いるが、これらの文法ルールや辞書は、上述のように、上記分析データベース18に予め準備されている。
なお、実施例では、一例として「茶筌」(http://chasen.naist.jp/hiki/ChaSen/)というフリーの形態素解析ソフトをコンピュータ14に導入して利用した。
なお、文書が日本語の場合、実施例では、まず形態素を分割して抽出しその抽出した形態素に付いて品詞を付与するように、上記「茶筌」のようなツールを利用した。しかしながら、たとえば英語のような言語体系では最小単位である単語は既に分割されているので、分かち書き処理(tokenization)は不要であるが、このステップS5では、活用形を原形に直す必要があるので、ステミング処理(stemming:活用形を原形に直すこと)を行い、さらに品詞を同定する必要があるので、タギング処理(tagging:語の品詞を見分けること)処理をすることになる。
また、このステップS5で解析した形態素(群)および品詞情報は、テキストデータベース16に蓄積される。
続くステップS7において、コンピュータ14は、上述の品詞情報に基づいて、不要語として設定しておいた品詞の種類の形態素を取り除くための不要形態素除去処理を実行する。
つまり、形態素解析の際に、各形態素に付与される「品詞情報」に基づいて、当該形態素をキーワードの候補として採用するか否かを選定する。不要語とする形態素(特異語(キーワード)/共通語の候補)の品詞の種類は、形態素解析システムが出力する品詞体系と、ユーザの解析の意図によって異なる。不要形態素と認定する品詞の種類はユーザが任意で定められるものとする。発明者等が実際に解析を行なった実験では、「茶筅」を用いて分析した結果の、非自立や接尾の形を取らない名詞、動詞、副詞、形容詞以外を不要形態素とした。ただし、どのような品詞の形態素を不要語とするかという不要語除去規則もまた、分析データベース18に予め設定しておけばよい。なお、英文の場合には、先に説明したように、ストップワード(stop word)と呼ばれる、極めて頻繁に使われるキーワードとして不適切な単語のリストを参照することによって、不要な形態素を取り除く。
ステップS7を実行した後には、たとえばテキストデータベース16に蓄積されている当該コーパスの中に必要な1つ以上形態素が残っている。したがって、ステップS9の処理は、そのコーパスに除去されずに残っているすべての形態素ついて実行される。つまり、コンピュータ14は、ステップS9において、残っているすべての形態素の各々について増加型TFIDFを求める。
ここで、「TF」はTerm Frequency、つまり単位ドキュメント中にそのキーワード候補が出現する頻度(延べ数)(出現頻度)であり、時間のパラメータを考慮した「IDF」は、Inversed Document Frequency(逆出現文書数)、つまり、他には出現していないという独自性を示す。したがって、「増加型TFIDF」とは、「TF」×「IDF」のことであり、Term Frequency Inversed Document Frequencyといい、TF*IDFと表すこともあるが、ここでは、増加型TFIDFと表現する。増加型TFIDFは、一種の重み付け指標となる。なお、背景技術では時系列的に増量する記事を含むコーパスを対象としたため、「時間増加型TFIDF」の語を用いたが、この発明は、以下に説明するように任意の順序基準に従って増量する文書を含むコーパス、たとえば自由回答形式の調査票の分析ないし解析を目的とするので、単に「増加型TFIDF」の語を用いることにした。
仮に、図5に示すように記事数が逐次変化する場合であっても、一般的な解析の場合には、最終的に一定数Nの単位ドキュメントが蓄積された後に行なうので、単位ドキュメントの総数Nは、図6(A)に示すとおり一定数である。そのため、そのような一般のテキストデータを解析する際のTFIDFのDF(Document Frequency)、その形態素が出現する文書の数は、図7(A)に示すように一定数となる。したがって、一般的な解析手法の場合のTFIDFは図8(A)のようになる。
これに対して、背景技術のシステムで取り扱う1レコードは時間情報または順序情報26(図2)を持っているため、各レコード(テキストデータ)は、時系列順または順序情報順に並べることができる。したがって、その際の増加型TFIDFのDFには、jの添え字(時間や順序の情報にもとづく添え字)が存在することになる。ここにいう「j」は、時系列順または順序情報順にレコード(記事)を並べた際の順番を表すことになる。
したがって、背景技術の文書解析装置10では、たとえば、ある記事djに対するTFIDFを求める場合、最終的に収集された全件の記事に基づく単位ドキュメントの総数Nやそれに基づくDFを用いるのではなく、記事d(j)が発行されるまでの時間に発信されていた記事の数に基づく時間を考慮したN(j)(記事d(j)が発信された時点までの記事の総数)や、DF(ti,dj)(記事d(j)が発信された時点までの形態素t(i)の出現文書数)を用いて、記事d(j)が発信された時点で逐次TFIDFを計算する。この実施例の文書解析装置10では、図4に示すようにそれが含む単位ドキュメント数が時系列順序にしたがって増加するコーパスを設定し、そのコーパスにおける各形態素のTFIDFを計算することによって、時間的順序(順番)を有するテキストデータからその順序に従った特異語(キーワード)や共通語を抽出または検出する。
具体的には、通常のTFIDFは次式(1)で、ここに定義する増加型TFIDFは次式(2)で計算される。
[数1]
TFIDF(ti,dj)=TF(ti,dj)*IDF(ti)
IDF(ti)= log10(N/DF(ti)) (1)
[数2]
増加型TFIDF(ti,dj)=TF(ti,dj)*IDF(ti,dj)
IDF(ti, dj)= log10 (N(j)/DF(ti,dj)) (2)
ここで、t(i)はiを識別子(ID)にもつ形態素である。つまり、TFIDF(ti,dj)を算出する対象となるキーワード候補のことである。
d(j)はj番目の単位ドキュメント(記事)を表わす。つまり、TFIDF(ti,dj)および増加型TFIDF(ti,dj)を算出する対象となるキーワード候補が含まれている文書のことである。ただし、文書の単位は、文章、記事、文など任意に設定可能であるが、背景技術では、ウェブニュースの記事を文書単位とした。
TFIDF(ti,dj)および増加型TFIDF(ti,dj)は、j番目の単位ドキュメントの形態素t(i)毎に算出される値である。
TF(ti,dj)は、j番目の単位ドキュメントの形態素t(i)ごとに算出される値で、単位ドキュメントd(j)中に形態素t(i)が出現した回数(延べ数)である。
DF(ti,dj)は、1〜j番目の単位ドキュメント中に形態素t(i)が出現した単位ドキュメント数である。
なお、上記N(j)は、単位ドキュメントd(j)が発生している際に出現している単位ドキュメント数であり、数度のIDが1から順序だって単位ドキュメントに付与されていれば実際には、Nの値はjと同値になる。
たとえば図5に示すように、各記事(単位ドキュメント)d(1),d(2),d(3),…に出現する形態素t(1),t(2),t(3),…が変化する場合を想定する。この場合、単位ドキュメントの数N(j)をフィールドに持つテーブルが図6(B)に示すように表される。また、各単位ドキュメントのDF(ti,dj)をフィールドに持つテーブルが図7(B)のように表され、N(j)の値によって形態素t(i)を識別子にもった各単位ドキュメントの増加型TFIDF(ti,dj)値をフィールドに持つテーブルが図8(B)のようになる。これらのテーブルは、いずれも、テキストデータベース16に逐次蓄積される。
このようにして、ステップS9ですべての形態素の増加型TFIDFが計算された後、続くステップS11において、コンピュータ14は、増加型TFIDFの累計値Σ増加型TFIDFと、TFの累計値ΣTFとをそのコーパスC(t)までの実測値として計算する。なお、増加型TFIDF(ti,dj)が図8(B)のようになり、DF(ti,dj)が図7(B)で表されることから、TF(ti,dj)も計算することができ、ΣTFについては、TF(ti,dj)を計算した後それの累計値として計算すればよい。ただし、増加型TFIDFについては、図8(B)のテーブルから累計値を計算すればよい。
続くステップS13で、コンピュータ14は、そのコーパスC(t)について求めたTF(ti,dj)の累積値ΣTFをXとし、増加型TFIDF(ti,dj)の累積値Σ増加型TFIDFをYとして次式(3)への当て嵌めを行い、定数aと定数bを求め、図9に示す回帰曲線を作成する。この回帰曲線は、次のコーパスC(t+Δt)での残差分析のために、そのコーパスC(t+Δt)における増加型TFIDFを推定または予測するものとなる。つまり、そのコーパスC(t)までのΣTFが横軸のようになるとき、もし、次のコーパスC(t+Δt)においても増加型TFIDFが同じ傾向を示すなら、次のコーパスC(t+Δt)での増加型TFIDFは、この回帰曲線上にプロットされることになる。
[数3]
Y=aX (3)
そして、コンピュータ14は、ステップS15において、先のステップS11で計算した時間jでのコーパスC(t)における増加型TFIDF(ti,dj)の累計値Σ増加型TFIDFと、前のコーパスC(t-Δt)についてステップS13で求めた回帰曲線Y=aXによる推定値Yとの差(残差値)を求める(図10)。残差値が大きいほど、正負のいずれに拘わらず、直前のコーパスC(t-Δt)で予測した同じ形態素t(i)のΣ増加型TFIDFより離れている(乖離している)ことを、すなわち、直前のコーパスまでの常識から予測できなかったことを意味する。そこで、この残差値を、当該形態素の特異性を表す値、つまり、特異値(Discriminating Value)ということとする。他方、Σ増加型TFIDFが正の残差値(特異値)を示す形態素は、回帰曲線より上方にプロットされ、特異的または特徴的であることを意味する。Σ増加型TFIDFが負の残差値(特異値)を示す形態素は、特異性は全くなく、逆の性質をもつありふれた形態素であるといえる。
図10を参照して、Y=aXで示される回帰曲線に対して、形態素t(i)のΣ増加型TFIDFがこの曲線の上方にプロットできた場合、この形態素t(i)は正の残差値を持つことになる。正の残差値を持つということは、その形態素t(i)がC(t-Δt)までにあまり出現しておらず,経過したΔtの中で急激に出現したといえる。C(t)の形態素t(i)のΣ増加型TFIDFが回帰曲線より下方にある場合には,C(t-Δt)までも数多く出現した形態素であることを示している
ステップS15ではこのようにして各形態素毎にΣ増加型TFIDFの推定値または予測値と実測値との間で残差分析を行ない、各形態素の特異値すなわち残差値を、たとえばデータベース16のテキストデータテーブル20(図2)にメタデータとして付加するなどして、逐次記憶する。
コンピュータ14は、次のステップS17で、上述のようにデータベース16に記憶した特異値(残差値)に従って、特異語(キーワード)および共通語(キーワード)を選定する。たとえば、正の残差値(特異値)が任意の上位数以上だった形態素を、そのコーパスを代表する特異語として選定する。逆に、負の残差値(特異値)が任意の下位数以下だった形態素は、共通語として選定する。共通語は構成したテキストデータベース(言語資料)全体を代表するキーワードに該当する。これらの特異語や共通語を利用すれば、同じテーマのテキストデータ(言語資料)を効率よく探し出せる。
続いて、コンピュータ14は、最後のステップS19で、ステップS17で選定した特異語や共通語を図示しないディスプレイ上に表示する。
図11に2004年新潟県中越地震について発行されたウェブニュースを用いて解析したときの表示例を示す。図11では、表示画面の上側に正の残差値を持つ特異語が時間経過(横軸)とともにプロットされ、下側に負の残差値を持つ共通語がプロットされる。ただし、図11では細部を描けないので、特異語として2つ「死亡」、「派遣」だけが明示されていて、共通語として「地震」、「中越」という2つだけが明示されているが、各グラフ部分にそのグラフを構成する形態素(単語)が表示される、ということに留意されたい。この図11のような表示例によれば、特異語と共通語が上下に別々に表示されているので、それらを一覧できるという利点がある。
表示例としては、図12に示す表形式の表示も考えられる。図12の表では、横軸に時間経過を示し、縦軸に時間区分ごとの特異語を上位適宜数(ランク:Rankとして)表示するようにしている。
ただし、他の任意の表示形態が考えられることは勿論であり、図11および図12の表示例に限定されるものではない。
先に説明したように、ある時点でのキーワードに、特徴の度合いを表す指標の情報が付加されていれば、指標の評価結果にもとづき、より特異的なキーワードを同定することができる。ある時点で、ある事柄がウェブニュース上で中心的に発信されている場合、ある事柄の意味を表す言葉は多く出現する可能性がある。しかし、頻出するキーワードの中には、どのようなニュース記事であっても、文書を構成する上で多用されるキーワード、一部のニュース記事の中で頻出しているキーワードの2種類があることが想像される。ニュース記事を特徴的に表すキーワードとは後者を指す。
後者のようなキーワードに対して高い重みを与える指標として先に説明したTFIDFがある。ここで、上述のように、TF(ti,dj)がキーワードt(i)の記事d(j)に出現した回数を示し、DF(ti)がキーワードt(i)の出現する文書数を示すとき、IDF(ti)は、全文書数に対するキーワードt(i)が出現した文書数の比の逆数である。つまり、この実施例では、どの記事にも現れるような形態素については低い重みを、他の記事にあまり現れないような形態素には高い重みを与えることになる。これとTFとの積をとった増加型TFIDFは、記事の中にいかに多く出現し、いかに他の記事に出現していないかを表す指標であり、キーワードの特徴の度合いを評価している指標と言える。
そして、発明者等の背景技術における実験では、ある記事d(j)に対する増加型TFIDFを求める場合、最終的に収集された全2623件の記事に基づくNやDFを用いることはせず、記事d(j)が発行されるまでの時間に発信されていた記事の数にもとづく時間を考慮したN(j)(記事d(j)が発信された時点までの記事の総数)や、DF(ti,dj)(記事d(j)が発信された時点までの形態素tiの出現文書数)を用いて、記事d(j)が発信された時点で逐次TFIDFを計算することにする。これを増加型TFIDFと呼ぶ。つまり、通常のTFIDFはNとDFが一定であり、増加する言語資料から抽出された形態素に対する重み付けには対応していない。そのため、背景技術では、全文書数と任意の形態素が出現する文書数を順序基準に基づいて変化するパラメータとし、TFIDFを修正した増加型TFIDFを用いることにした。
ただし、単に増加型TFIDFの値だけではキーワードが特徴的であるか否かを評価することは難しい。ある時点までの増加型TFIDFの値が高く評価されるパターンには、TFの値が低くともIDFが高い(DFが低い)ために増加型TFIDFが高い値で求められる場合と、IDFが低くとも(DFが高くとも)TFが著しく大きいために増加型TFIDFが高く算出される場合とがある。TFが著しく大きいということは、その言葉の一般性が高いために記事を記述する上で何度も用いなければならないような言葉である可能性が高い。単純に増加型TFIDFの値によってその形態素が特徴的であるかどうかを単純に評価することはできない。
ある時点における情報が特徴的であるということは、前の時点までに語られているキーワード群と、ある時点で語られているキーワード群とを比較することから把握できると考えられる。両者に差が生じていれば、任意時点の前後に大きな質の違いがあったことを意味していると思われる。つまり、ある時点のコーパスと、ある時点から任意の時間が経過した分のコーパスを比較することにより、情報の質の変化を捉え、その変化をもたらしたキーワードを同定できる可能性があるものと考えられる。そこで、この発明の背景技術においては、先に説明したように、残差分析(ステップS15)を行なうことによって、ある時点と次の時点のコーパスの特性を比較するようにした。
発明者等が或る災害に関する実際のニュースを発災からそれぞれ異なる時間において形態素ごとのTFの累積値と増加型TFIDFの累積値の関係を評価したところ、TFの累積値と増加型TFIDFの累積値の間には、先の(3)式で表される強い関係があった。サンプル数(キーワード数)が少ない期間においてはTFの累積値と増加型TFIDF(の累計値の関係以外については、累乗関数でRが0.90〜0.99であり、TFと増加型TFIDFの累積値の間には、累乗関数の関係が系統的に存在することが明らかになった。このような関数関係は、近似曲線の近傍にあるキーワードはTFの累積値と増加型TFIDFの累積値の関係が、コーパスの平均的な関係と同じような傾向にあることを意味している。このような傾向をもつキーワードは、平均的な出現パターンを呈しているものと考えられる。したがって、実際の増加型TFIDFの累積値が、近似曲線にもとづく推定値を下回る場合、コーパスの平均像からみて増加型TFIDFの累積値が低い、つまりあまり特徴の度合いが高くないことを表す。逆に、実測値が推定値を上回る場合は、その逆で増加型TFIDFが高く、特徴的なキーワードであることと言える。以上のような評価は、実際の増加型TFIDFの累積値と、近似曲線に基づく推定値との差(残差)を求めることによって可能になる。以上の関係を応用し、図13のようなモデルで任意時点のキーワードを特徴的の度合いを評価する。
図13の左側には、あるt‐Δtから単位時間幅Δt経過する際のコーパスの変化を模式的に表した。このような関係は次式(4)で表すことができる。
図13(A)に示すように、C(Δt)にそれまでに出現したキーワードが多く含まれていたり、出現頻度もあまり高くないような形態素のみが存在したりしているような場合には、図13の右上側に示したようにTFの累積値と増加型TFIDFの累積値の関係は、t‐Δtの時点のコーパス(C(t-Δt))で構成された場合とtの時点のコーパス(C(Δt))で構成された場合では大きな差は生じない。それに対して、図13(B)に示すように、t‐Δtまでに出現しなかったようなキーワードがΔtの中で出現したり、高い頻度で現れるような形態素が存在する場合には、tの時点でのコーパス(C(t))が大きく変化し、図13の右下側に示したようにTFの累積値と増加型TFIDFの累積値の関係を表す曲線の形状も大きく変化する。
つまり、ある時点tでの増加型TFIDFの累積値と、t‐Δtの時点でのコーパスで構成された関係式にもとづく推定値との残差が、このΔtの間のコーパスの変化そのものを表し、残差が大きい形態素こそがΔt間に発生した言語資料の内容を代表するキーワード(特異語、共通語)であると考えられる。
このように、実施例では、時間tでの情報内容の質的な変化を表すキーワードの特徴量を評価する指標として、任意時間t‐Δtのコーパスで構成されるTFと増加型TFIDFの累積値にもとづく関係式による増加型TFIDFの累積値の推定値とtの時点での増加型TFIDFの累積値の実測値との差分(残差)を採用することにする。ここに残差が著しく高かったキーワードを特徴語または特異語(残差値または特異値:正)、著しく低かったキーワードを一般語または共通語と呼ぶことにする(残差値または特異値:負)。
図1に示す背景技術の文書解析装置10によれば、図3に示すフロー図に示す次の手順に従って、コンピュータ14によって、人の主観的な判断を用いず、増加型TFIDF指標や残差値による定量的な指標を用いて構成されており、連続したプロセスから成り立っているため、ツールと参照すべきものが適切に準備されていれば、過去の事象の記録をインプットとし、一連の過程を通して自動的客観的に最終成果物であるキーワードを検出することができる。
このようにして、図1に示す実施例の文書解析装置10において、コンピュータ14は、要するに、次のステップを実行する。
1)時系列的に増加するテキストデータ(この場合では、ウェブニュース)のデータベースを構築する。
2)テキストを形態素に分割し、品詞情報を付加する。
3)品詞情報にもとづき、非自立と接尾以外の名詞、動詞、副詞、形容詞を抽出する。
4)形態素について、文書(ここではウェブニュース記事)ごとにTFと時間情報に基づく増加型TFIDFを求める。
5)ある時点t‐Δtからtの間における特徴的なテキストを代表するキーワードを抽出するため、t‐ΔtまでのコーパスにおけるTFの累積値と増加型TFIDFの累積値の関係式を求め、それにもとづくtの時点での増加型TFIDFの累積値の推定値と実測値との差を求める。この残差値をあるΔtに出現したキーワードの特徴量すなわち特異値とする。
6)最も大きい残差値(特異値)から任意の上位数までのキーワード(特異語)を選定し、当該特異語が検出された記事に特異語を言語資料のメタデータとする。
以上説明したように、提案済みの文書解析手法は、時系列的に増加するコーパス中の言葉について、任意の時間断面における特異性を数値的に評価し、時系列のデータセットを生成するものである。この時系列データの傾向変動を的確に捉えることができれば、任意の事象の展開を予測できる可能性がある。
上で説明した背景技術では、単位ドキュメントの生成の時間のみを考慮するコーパスに適用できるよう、増加型TFIDFを定義した。ところが、自由回答記述のような実時間の上にないような文書であっても、ある順序基準に従って生成されていると仮定すれば、疑似的な時間軸の上に各自由回答記述が並ぶことになり、増加型TFIDFによる単語の重み付けが可能になる。このように、自由回答記述の単位ドキュメントを一定の順序基準に従って並べることによって、疑似的に、背景技術における増加型TFIDFを適用することができる。
そこで、図14に示すこの発明の一実施例の文書解析装置10では、図1および図3に示す背景技術を利用して、自由回答のテキストデータを単位文書とするコーパスを解析する。この文書解析装置10は、図1の装置と同様に、操作手段15Aおよび表示手段(モニタ)15Bを備えるコンピュータ14を含み、このコンピュータ14には先に説明したテキストデータベース16および分析データベース18が付設されるとともに、ネットワーク12が結合される。
さらに、図14の実施例では、コンピュータ14に付属するイメージスキャナ30を設置し、自由回答記述を含む調査票32をこのイメージスキャナ30で読み取った上で文字認識の手法を適用することによって、テキストデータに変換するようにしてもよい。このとき、自由回答記述に通常設定されるフェイス項目(後述)についてもこのイメージスキャナの読取データから復元するようにしてもよい。そうすれば、自由回答記述を含む調査票の内容を自動的にテキストデータ20としてテキストデータベース16中に取り込むことができる。
ただし、このような調査票から手動的にテキストデータベース16を作成するようにしてもよい。つまり、回収した調査票をコーディングするとともに、自由回答記述をテキスト入力する。コーディング工程では、よく知られているように、ケース(回答者)×属性(質問項目)のマトリクスに、実際の回答結果(数字など)を入力する。ただし、「年齢」のように数字そのものが回答の場合には、そのまま数字を入力する。このようなコーディング処理によってマトリクスを作成すれば、調査票をたとえば年齢のような所定の順序基準に従って昇順または降順に並べることができる。
イメージスキャナ30で調査票32を自動的に読み取る場合でも、復元したフェイス項目に従ってマトリクスを自動的に作成することができるので、この場合においても、調査票を所定の順序基準に従って昇順または降順に並べることができる。
図15には図14の実施例の文書解析装置10において解析可能な自由回答記述を含む調査票の一例が図示される。調査票32はたとえばA4サイズの紙に記入されたものであり、紙面上部にフェイス項目記入領域34が設定される。さらに、調査票32の紙面下部が自由回答記述領域36として設定されている。この実施例では調査票32は単に図解の目的で1枚のものとして示されているが、複数枚1組の調査票であってよく、さらにはフェイス項目記入領域34および自由回答記述領域36だけでなく、プリコード回答形式(選択肢にチェックをつける形式)の質問回答領域(図示せず)が設定されているものであってよい。
フェイス項目記入領域34には、一例として、性別、年齢、職業、年数(勤続年数または営業年数)、世帯人数、世帯年収などの記入欄が設定されていて、これらの項目は、プリコード回答形式の問いとして設定されている。このフェイス項目記入領域34に記入しまたは選択した、たとえば年齢や年数あるいは世帯年収などが、この調査票32の自由回答記述領域36における自由回答記述を単位ドキュメントとして昇順または降順に並べる際の順序基準として利用することができる。そして、自由回答記述領域36には文字通り自由な回答や意見が記述される。
自由回答記述を解析するためには、図14のコンピュータ14は、モニタ(表示手段)15Bにたとえば、図16に示すGUI40を表示することによって、ユーザによる設定を可能にしている。GUI40には、自由回答記述を分析するための分析項目選択ボタン42、44および46が設定される。また、このGUI40に右側にさらに、コーパス選択領域48および対象設定領域50が設定される。コーパス選択領域48には、そのとき選択可能なコーパス(言語資料体)の内容を記述したものがコーパス名として表示され、ユーザは、上表示記したボタン42‐46で選択した評価項目を得ようとするコーパスを選択するときに、そのコーパス名を操作(クリック)すればよい。また、対象設定領域50では、この実施例での評価の基準となる各形態素(単語)の累積特異値ΣDの上位何位までを評価対象とするかを入力する。つまり、領域50に設定されているウィンドウ52にnとして任意の数字を入力する。たとえば、「50」がウィンドウ52に設定されたとき、ユーザは累積特異値ΣDの上位50位までの形態素を対象とするように設定したことを意味する。
代表キーワード値選択ボタン42は、評価項目として代表キーワード値を選択するとき、ユーザがたとえばマウス(図示せず)でクリックする。上で説明したように、特異値(Discriminating Value)を初めから任意の時間(順序基準)断面まで足し合わせた数値を累積特異値と呼び、重要な特異語を同定するための指標とした。特異値が正を示した言葉は各時間(順序基準)断面を特徴づける言葉で(特異語)あり、負の値を示した言葉はコーパスに遍在する言葉である(共通語)。単純に特異値を足し合わせれば、任意の言葉が特異語から共通語になった場合、負の値が足し合わされていく。このような言葉は、ある一定の期間、すなわち一定範囲の順序基準に重要な事象に関連する特異語であったにも拘わらず、積み上げられた特異値が減じられることになってしまい、重要な特異語として求めることができない可能性がある。したがって、ここでは、正の特異値だけを足し併せたものを累積特異値(ΣD)とする。この累積特異値ΣDは当該形態素(単語)がどの程度高い重みを持った形態素かを示す指標である。
ただし、図1の背景技術では、原理的に、順序基準において後ろの方に並べたドキュメントに含まれる単語(形態素)に高い重みを与える方法になっている。そのため、そのままの方法で自由回答記述の分析を行なった場合には、順序基準の特性を強く反映したキーワードが抽出されることが予想される。たとえば、自由回答記述を年齢のような順序基準において昇順に並べたときの昇順累積特異値ΣD(i,ord,asc)および順序基準において降順に並べたときの降順累積特異値ΣD(i,ord,dsc)をそれぞれ求めたとき、前者は高齢層の特性を表すキーワードを抽出し、後者は若年層の特性を表すキーワードを抽出する可能性がある。したがって、この実施例では、数5で求めた昇順の累積特異値ΣD(i,ord,asc)および降順の累積特異値ΣD(i,ord,dsc)の相加平均、つまり平均累積特異値aveΣDを計算することによって、着目した順序基準の特性を排除したより客観的(または代表的)な解析結果を得ることを着想した。この平均累積特異値aveΣDはしたがって、その形態素(キーワード)がたとえば順序基準が年齢である場合、若年層および高齢層の両方において顕著な程度、すなわちどの程度代表的なキーワードであるかを示すことになる。したがって、平均累積特異値aveΣDは、代表キーワード値ということもできる。この代表キーワード値aveΣDが自由回答形式の記述(単位ドキュメント)の評価の1つの指標である。
ただし、D(i,j,ord,asc/dsc):順序基準(ord)の昇順(asc)または降順(dsc)で求められた単位ドキュメントjにおける単語iの特異値である。
2つ目の指標は、上述の昇順/降順累積特異値ΣDの総和(累計)に基づく指標である。累積特異値ΣDはその単語(形態素)がどの程度重要かを示す指標である。したがって、累積特異値ΣDが大きく、したがって、高い重みを持つ形態素(単語)を多く含む記事ほど、重要な自由記述(記事)であるという考えが成立する。そこで、図14に示す実施例では、2つ目の指標として1つの記事の中にどの程度重要な形態素が含まれているかを示すΣΣD(累積特異値総和)を採用する。ただし、ΣΣDをそのまま採用すると、数値が記述文の長さ(単語の数)に影響されるという問題がある。そこで、一定以上の上位を示す形態素の累積特異値ΣDを累計した累積特異値総和ΣΣDを用いる。この累積特異値総和ΣΣDが数6で与えられる。
ただし、rank:自由回答記述の重み付けに考慮する累積特異値総和ΣΣD(j,ord,asc/dsc)の上位語の数(ランク)であり、rank(j)は単語(形態素)iのΣD(i,ord,asc/dsc)の順位である。
他方、上で説明したように、累積特異値ΣDは、コーパスに含まれる各文書を順序基準の昇順に並べるか降順に並べるかによって影響を受ける。したがって、各形態素の累積特異値ΣDの各文書(記事)中における総和である累積特異値総和ΣΣDも昇順/降順の影響を受けることが容易に予測できる。
そこで、実施例においては、特定上位の昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)を採用した上で、数7に従って昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)の相加平均を計算して平均累積特異値総和aveΣΣD(j,ord,rank)を求める。この平均累積特異値総和aveΣΣD(j,ord,rank)を代表ドキュメント値または代表事例値と呼ぶ。
先に説明したように、TFIDF(i)は、それの性質上、それ自体が内容的な意味をもたない単語や、包括的な抽象の度合の高い単語についても高い重みを加えることがあるので、この発明が目指す自由回答記述に対しては適切な重み付けができていない可能性もある。これに対して、順序基準に従う昇順累積特異値ΣD(j,ord,asc,rank)および順序基準に従う降順累積特異値ΣD(j,ord,dsc,rank)は上記のように、より具体的な意味を持つ形態素(単語)が高い値を示す。したがって、このまま、これらの単語とその重みを採用すれば、上記昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)ように、順序基準のどちらか一方の特性を強く示す。他方で、TFIDF(j,rank)のように、順序基準の効果を求めない、均質的な代表値も必要になる。そこで、順序基準の効果を相殺するために、両指標の平均値をとることを考える。これを平均累積特異値総和aveΣΣD(j,ord,rank)と呼び、その記事(自由回答記述)がどの程度代表的な記事かを示す指標として採用することとした。
昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)が高い値を示す自由回答記述は、双方の特徴をよく表す記述内容になることが期待される。中には、両方の特徴をもつような自由回答記述が存在する可能性があり、順序基準の効果を適切に表すことができない場合も生じる。順序基準の効果をより強調しようとした場合には、昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)の差を求めることで、その絶対値で順序基準の昇順/降順の性質を反映した重み付けが可能になると考えられる。これを差分累積特異値総和diffΣΣD(j,ord,rak)と呼び、数8で表す。
たとえば、差分累積特異値総和diffΣΣD(j,ord,rak)が正の値を示した場合には、順序基準ordの昇順の性質(年齢の場合は、高齢層の性質)を表す自由回答記述が高い重みを示し、負の値を示した場合には、降順(年齢の場合は、若年層の性質)を表す自由回答記述が高い重みを示すことを期待した。つまり、この数7の指標は、その記事(自由回答記述)がどの程度の特異性を示すかを示す数値、つまり特異ドキュメント値または特異事例値である。
このように、図14の実施例の文書解析装置10では、自由回答記述を解析する上で重要と思われる3つの指標、平均累積特異値aveΣD(i,ord,rank)、平均累積特異値総和aveΣΣD(j,ord,rak)および差分累積特異値総和diffΣΣD(j,ord,rak)を採用した。
まず、図17を参照して、図16のGUI40においてユーザが代表キーワード値選択ボタン42をクリックして、自由回答記述のコーパスを、平均累積特異値aveΣD(i,ord,rank)という評価項目で解析することを選択した場合の動作を説明する。
なお、背景技術では時間基準に従って増量する文書を対象としたので図3のフロー図に従った動作を実行するタイミングを、設定時間が経過したかどうかで判断するようにした。しかしながら、この実施例では、文書が任意の順序基準で並べられたコーパスを対象にするので、コンピュータ14は、文書(自由回答記述)が1つまたはそれ以上増加する都度、すなわちコーパス内において順序基準に従って1つまたはそれ以上文書が増える都度、図17の動作を実行する。つまり、この図17の動作を実行するには、順序基準に従って文書を増量させる必要がある。
図17のステップS31では、ユーザがGUI40のコーパス選択領域48を操作して選択したコーパスに含まれるその時点で1つ増加した文書iを含むすべての文書(コーパステキスト)を順序基準、たとえば年齢などに従って昇順に並べる。その後、図3の背景技術のステップS3‐S19実行することによって、各形態素の残差値すなわち特異値D(i)を求める。ただし、そのとき、順序基準における直前の文書i−1までを含む前コーパスで求めたTF(ti,dj)の累積値ΣTFをXとし、増加型TFIDF(ti,dj)の累積値Σ増加型TFIDFをYとして前述の数3への当て嵌めを行い、定数aと定数bを求めることによって、ステップS13(図3)図9の回帰曲線を作成する。そして、ステップS15(図3)において、文書iまでを含む現コーパスにおける増加型TFIDF(ti,dj)の累計値Σ増加型TFIDFと、文書i−1までを含む前コーパスで求めた回帰曲線Y=aXによる推定値Yとの差(残差値)すなわち特異値を求める。したがって、図17のステップS33において、文書iまでを順序基準に従って昇順に並べた現コーパスにおける各形態素の特異値がすべて計算されている。
その後、ステップS35において、先の数5に従って昇順累積特異値ΣD(i,ord,asc)を計算する。
ついで、ステップS37‐S41を先のステップS31‐S35と同様に実行して、文書iまでを順序基準に従って降順に並べた現コーパスにおける各形態素の特異値がすべて計算し、それに基づいて、数5を用いて降順累積特異値ΣD(i,ord,dsc)を計算する。
続くステップS43において、昇順累積特異値ΣD(i,ord,asc)および降順累積特異値ΣD(i,ord,dsc)の相加平均を計算して、代表キーワード値を求める。
ついで、ステップS45において、モニタ15Bによって、平均累積特異値aveΣDや、それの基礎となった昇順累積特異値ΣD(i,ord,asc)および降順累積特異値ΣD(i,ord,dsc)、さらには順累積特異値ΣD(i,ord,asc)および降順累積特異値ΣD(i,ord,dsc)を縦軸および横軸に表現したグラフ(後述)を表示する。
発明者等の実験においては、自由回答記述を収集するために、財団法人原子力安全技術センターが開設したサイト(IINET(Incident Information network system)システム:http://www.n-linet.ne.jp)で公開されている「事故・故障情報データベース」(http://www.n-linet.ne.jp/default.htm)を利用した。その結果が図18‐図22に示される。
実験では上記データベースから各レコードを取得してコーパスを作成した。そして、順序基準として発生年月日を採用して各コーパステキストを昇順/降順に並べ、この順序基準に従って単位ドキュメント順を変更して図17に示す処理を実行した。
図18は発生年月日の昇順でのΣDと降順でのΣDとを平均した平均累積特異値aveΣDの大きい順に並べて示すグラフである。ただし、このグラフではGUI40で上位50位までの形態素(単語)だけを用いて計算した昇順累積特異値ΣD(i,ord,asc,rank)および降順累積特異値ΣD(i,ord,dsc,rank)を平均した平均累積特異値aveΣD(i,ord,rank)を示す。また、図19が昇順累積特異値ΣD(i,ord,asc,rank)を示すグラフであり、図20が降順累積特異値ΣD(i,ord,dsc,rank)を示すグラフである。
図19は昇順累積特異値ΣD(i,ord,asc,rank)であるから、順序基準としての発生年月日が後に出現する形態素ほど重みが大きくなる傾向があるのであり、ここでは「発見」、「施設」、「管理」、「システム」、「核」、…の順で累積特異値が大きくなっていることがわかる。図20は降順累積特異値ΣD(i,ord,dsc,rank)であるから、順序基準としての発生年月日が前に出現する形態素ほど重みが大きくなる傾向がある。ここでは「PU(プルトニウム)」、「漏洩」、「装置」、「許容」、「被ばく」、…の順で累積特異値が大きくなっていることがわかる。つまり、原子力関連のインシデント報告では、初期のころには装置(ハードウェア)を原因とする故障や事故が多く発生していた反面、最近ではそのようなものではなく、管理や制御システムに関する事故や故障が多く発生していることがわかる。
図18に示す平均累積特異値aveΣD(i,ord,rank)では、昇順で大きい累積特異値を持った形態素および降順で大きい累積特異値を持った形態素が比較的大きい累積特異値を持つように計算された。つまり、平均累積特異値aveΣD(i,ord,rank)の大きい形態素(単語)がそのコーパスを代表する代表的なキーワードとなり得ることが分かる。
図21縦軸に昇順累積特異値ΣD(i,ord,asc,rank)を示し、横軸に降順累積特異値ΣD(i,ord,dsc,rank)を示した、各形態素がどの位置にプロットされるかを示すグラフである。この図21を見ると、先に説明したように、縦軸の高位に「発見」、「施設」、「管理」、「システム」、「核」、…の形態素がプロットされていて、横軸の高位に「Pu(プルトニウム)」、「漏洩」、「装置」、「許容」、「被ばく」、…などの形態素がプロットされている。したがって、図21のグラフを見れば、この原子力関連の故障事故報告のコーパスを代表するキーワードが何かが容易に把握できる。
なお、図22は縦軸に平均累積特異値aveΣD(i,ord,rank)をとり、横軸に増加型TFIDF(i)をとって各形態素をプロットしたグラフであり、この実施例で評価した平均累積特異値aveΣD(i,ord,rank)の大きい形態素が高位にプロットされていることがわかる。つまり、平均累積特異値aveΣD(i,ord,rank)が或る程度信頼できることを示している。たとえば、キーワード「施設」,「許容」,「Pu」あるいは「漏洩」などについては時間情報を考慮しない従来の重み付け指標TFIDF(i)と概ね同じ結果を示す一方で、「する」のような日本語の特性上どうしても高頻度で用いられる、それ自体意味を持たない単語や、「汚染」あるいは「作業」のようにコーパス(記事)の性質上どうしても高頻度で用いられる当たり前の単語が高い重みを示さないので、信頼性は担保されている。
図16に示すGUI40で選択ボタン38または40を操作した場合、図23に示す処理が図14に示す実施例のコンピュータ14によって実行される。
図23のステップS51‐S61は、以下の点を除いて、図17に示すステップS31‐S41と同じであり、ここでは重複する説明は省略する。
すなわち、図17のステップS35では昇順累積特異値ΣD(i,ord,asc,rank)を計算したのに対して、この実施例のステップS55では先に示した数6に従って昇順累積特異値総和ΣD(j,ord,asc,rank)を計算する。図17のステップS41では昇順累積特異値ΣD(i,ord,dsc,rank)を計算したのに対して、この実施例のステップS61では昇順累積特異値総和ΣD(j,ord,asc,rank)を計算する。
その後、図23のステップS63において、数7に従って平均累積特異値総和aveΣΣD(j,ord,rank)を計算する。この評価値は、昇順累積特異値総和ΣΣD(j,ord,asc,rank)および降順累積特異値総和ΣΣD(j,ord,dsc,rank)における順序基準の特性の影響を緩和するもので、その記事(自由回答記述)がどの程度代表的な記事かを示す指標である。つまり、この平均累積特異値総和aveΣΣD(j,ord,rank)が大きい記事がこのときのコーパスを代表する代表的記事である。
他方、ステップS65において、差分累積特異値総和diffΣΣD(j,ord,rank)を計算する。先に説明したように、昇順累積特異値総和ΣΣD(j,ord,asc,rank)が高い値を示す記事および降順累積特異値総和ΣΣD(j,ord,dsc,rank)が高い値を示す記事は、昇順および降順での特徴に大きく影響される。ところが、コーパスの中には両方の特徴をもつような記事が存在する可能性があり、順序基準の効果を適切に表すことができない場合も生じる。そこで、順序基準の効果をより強調することによってその記事がコーパス中においてどの程度の特異性を有するかを示す指標として差分累積特異値総和diffΣΣD(j,ord,rank)を採用したのである。
最後に、ステップS67において、モニタ15Bに、平均累積特異値総和aveΣΣD(j,ord,rank)の大きさを縦軸に示し、横軸が差分累積特異値総和diffΣΣD(j,ord,rank)の大きさを示す、図24に例示したようなグラフを表示する。このグラフでも先の例示と同様に、原子力に関する事故・故障報告記事をコーパスとして選択している。そして、横軸が差分累積特異値総和diffΣΣD(j,ord,rank)であるので、グラフの右半分および左半分に特徴的な記事がプロットされる。つまり、順序基準の昇順での累積特異値総和が大きい記事が横軸の「0」から右にプロットされ、降順での累積特異値総和の大きい記事が横軸の「0」から左にプロットされる。また、縦軸は平均累積特異値総和aveΣΣD(j,ord, rank)であり、上部にこのコーパスを代表するような記事がプロットされる。ただし、下部には余り重要ではない記事がプロットされる。棒グラフの高さが記事の数を示している図25を見ると特によく分かるように、縦軸の上半分(図24では下半分に相当する)には余り重要ではない記事が密集している。したがって、もし時間的な制約があるなら、縦軸において下の方にプロットされた記事は強いて読む必要はないということがわかる。
ここで、図24において示す3つのゾーンb‐c‐d、a‐b、およびd‐eに具体的にどのような記事があったのか、発明者等の実験の結果を見てみる。
ゾーンb‐c‐dは、平均累積特異値総和aveΣΣD(j,ord,rank)が上位5%内の記事の存在を示すゾーンである。つまり、ゾーンb‐c‐dには、コーパスを代表する重要な記事がプロットされている。このゾーンb‐c‐dに該当する記事の例1、2および3が次表1に示される。ただし、いずれの表中においても、予想外の影響が広がることのないよう、記事中の固有名詞(地名や人名)は伏字にしている。
記事1は1978年12月5日にイギリスで発生した事象を記述する記事であり、aveΣΣDは最大値「2083」(diffΣΣD=193)であった。この記事の中の重要なキーワードは「施設」、「管理」、「許容」、「安全」、「超える」、「Pu」であった。記事2は1987年9月14日にイギリスで発生した事象を記述する記事であり、aveΣΣDは「1719」(diffΣΣD=‐730)であった。この記事の中の重要なキーワードは「許容」、「疑い」、「超える」、「結果」などであった。記事3は1978年8月1日にイギリスで発生した事象を記述する記事であり、aveΣΣDが「1696」(diffΣΣD=‐695)であった。この記事の中の重要なキーワードは「許容」、「疑い」、「超える」、「結果」、「モニタリング」などであった。
ゾーンa‐bは、正の差分累積特異値総和diffΣΣD(j,ord,rank)が上位5%内の記事の存在を示すゾーンである。つまり、ゾーンa‐bには、比較的最近において重要な記事がプロットされている。このゾーンa‐bに該当する記事の例4、5および6が次表2に示される。
記事4は2008年3月11日にアメリカで発生した事象を記述する記事であり、diffΣΣDが最大値「1947」(aveΣΣD=974)であった。この記事の中の重要なキーワードは「発見」、「核」、「安全」、「違反」であった。記事5は2007年3月11日に日本で発生した事象を記述する記事であり、diffΣΣDは「1731」(aveΣΣD=971)であった。この記事の中の重要なキーワードは「発見」、「管理」、「核」、「燃料」であった。記事6は、上記記事2が記述する同じ2007年10月4日に日本で発生した事象を記述する別の記事であり、diffΣΣDは「1731」(aveΣΣD=971)であった。この記事の中の重要なキーワードは「発見」、「管理」、「核」、「燃料」であった。
ゾーンd‐eは、負の差分累積特異値総和diffΣΣD(j,ord,rank)が上位5%内に存在する記事を示すゾーンである。つまり、ゾーンd‐eには、比較的過去において重要な記事がプロットされている。このゾーンd‐eに該当する記事の例7、8および9が次表3に示される。
記事7は1978年12月1日にフランスで発生した事象を記述する記事であり、diffΣΣDは「−1984」(aveΣΣD=992)であった。この記事の中の重要なキーワードは「Pu」、「漏洩」、「破損」、「被爆」であった。記事8は1989年6月13日にイギリスで発生した事象を記述する記事であり、diffΣΣDは「−1879」(aveΣΣD=940)であった。この記事の中の重要なキーワードは「Pu」、「漏洩」、「配管」、「タンク」であった。記事9は1977年6月22日にイギリスで発生した事象を記述する記事であり、diffΣΣDが「−1872」(aveΣΣD=1052)であった。この記事の中の重要なキーワードは「Pu」、「漏洩」、「上昇」、「異常」であった。
図24および図25に示すように、2軸の一方に平均累積特異値総和aveΣΣD(j,ord,rank)を示し、他方に差分累積特異値総和diffΣΣD(j,ord,rank)を示すグラフを表示することによって、コーパス全体を代表するような(平均累積特異値総和aveΣΣDが大きい)代表的な記事または事例を容易に見つけることができる。また、差分累積特異値総和diffΣΣD(j,ord,rank)の大小によってそのコーパス内の各記事を並べた順序基準における特徴が一層明確に把握できる。上記の例でいえば、原子力関連のインシデントの発生年月日の古い年代において特徴的な記事、発生年月日の新しい年代において特徴的な記事などを容易に見つけることができる。
また、この発明の上述の実施例ではコーパスとして自由回答形式の記述を含む調査票やアンケートを想定したが、各単位文書をこの発明の手法に従って任意の順序基準において昇順および降順に並べられる限りにおいて、ニュース,ウェブニュース,ブログ,新聞,雑誌,インタビュー記録,供述調書,アンケート,小説などの任意のコーパスにこの発明は適用可能である。
10 …文書解析装置
12 …ネットワーク
14 …コンピュータ
16 …テキストデータベース
18 …分析データベース
30 …イメージスキャナ
32 …調査票
40 …GUI

Claims (10)

  1. 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置において、
    前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算手段、
    前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算手段、および
    前記昇順累積特異値および前記降順累積特異値を平均して平均累積特異値を計算する平均累積特異値計算手段を備えることを特徴とする、文書解析装置。
  2. 前記昇順累積特異値および前記降順累積特異値の一方を2軸の一方とし他方を他方とする累積特異値グラフを表示する累積特異値グラフ表示手段をさらに備える、請求項1記載の文書解析装置。
  3. 特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算手段、
    特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算手段、および
    前記昇順累積特異値総和および前記降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算手段をさらに備える、請求項1または2記載の文書解析装置。
  4. 前記昇順累積特異値総和および前記降順累積特異値総和の差分を計算する累積特異値総和差分計算手段をさらに備える、請求項3記載の文書解析装置。
  5. 前記平均累積特異値総和および前記累積特異値総和差分を2軸の一方および他方とする累積特異値総和グラフを表示する累積特異値総和グラフ表示手段をさらに備える、請求項4記載の文書解析装置。
  6. 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析方法であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求めるもの文書解析方法において、
    前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、
    前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算ステップ、および
    前記昇順累積特異値および前記降順累積特異値を相加平均して平均累積特異値を計算する平均累積特異値計算ステップを含むことを特徴とする、文書解析方法。
  7. 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置のコンピュータに、
    前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、
    前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算ステップ、および
    前記昇順累積特異値および前記降順累積特異値を相加平均して平均累積特異値を計算する平均累積特異値計算ステップを実行させることを特徴とする、文書解析プログラム。
  8. 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置において、
    前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算手段、
    前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算手段、
    特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算手段、
    特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算手段、および
    前記昇順累積特異値総和および前記降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算手段を備えることを特徴とする、文書解析装置。
  9. 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの累計値に基づく推定値と現コーパスにおける増加型TFIDFの累計値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析方法において、
    前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、
    前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値計算ステップ、
    特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算ステップ、
    特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算ステップ、および
    前記昇順累積特異値総和および前記降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算ステップを含むことを特徴とする、文書解析方法。
  10. 順序基準に従って増量する言語資料を増加型TFIDFに基づいて解析する文書解析装置であって、前コーパスまでの増加型TFIDFの総和値に基づく推定値と現コーパスにおける増加型TFIDFの総和値との間で残差分析を実行することによって形態素毎の特異値を求める文書解析装置のコンピュータに、
    前記言語資料を前記順序基準における昇順に並べたときの形態素毎の昇順累積特異値を計算する昇順累積特異値計算ステップ、
    前記言語資料を前記順序基準における降順に並べたときの形態素毎の降順累積特異値を計算する降順累積特異値算ステップ、
    特定上位の累積特異値を持つ形態素について昇順累積特異値の総和を計算する昇順累積特異値総和計算ステップ、
    特定上位の累積特異値を持つ形態素について降順累積特異値の総和を計算する降順累積特異値総和計算ステップ、および
    前記昇順累積特異値総和および前記降順累積特異値総和を平均して平均累積特異値総和を計算する平均累積特異値総和計算ステップを実行させることを特徴とする、文書解析プログラム。
JP2009229501A 2009-10-01 2009-10-01 文書解析装置および方法 Expired - Fee Related JP5404287B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009229501A JP5404287B2 (ja) 2009-10-01 2009-10-01 文書解析装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009229501A JP5404287B2 (ja) 2009-10-01 2009-10-01 文書解析装置および方法

Publications (2)

Publication Number Publication Date
JP2011076524A true JP2011076524A (ja) 2011-04-14
JP5404287B2 JP5404287B2 (ja) 2014-01-29

Family

ID=44020412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009229501A Expired - Fee Related JP5404287B2 (ja) 2009-10-01 2009-10-01 文書解析装置および方法

Country Status (1)

Country Link
JP (1) JP5404287B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590170A (zh) * 2016-07-08 2018-01-16 富士施乐株式会社 信息处理装置和信息处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194745A (ja) * 1998-12-25 2000-07-14 Nec Corp トレンド評価装置及びトレンド評価方法
JP2003141134A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd テキストマイニング処理方法及びその実施装置
WO2008062910A1 (fr) * 2006-11-22 2008-05-29 Haruo Hayashi Dispositif et procédé d'analyse de documents
JP2009193584A (ja) * 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194745A (ja) * 1998-12-25 2000-07-14 Nec Corp トレンド評価装置及びトレンド評価方法
JP2003141134A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd テキストマイニング処理方法及びその実施装置
WO2008062910A1 (fr) * 2006-11-22 2008-05-29 Haruo Hayashi Dispositif et procédé d'analyse de documents
JP2009193584A (ja) * 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590170A (zh) * 2016-07-08 2018-01-16 富士施乐株式会社 信息处理装置和信息处理方法
CN107590170B (zh) * 2016-07-08 2023-02-17 富士胶片商业创新有限公司 信息处理装置和信息处理方法

Also Published As

Publication number Publication date
JP5404287B2 (ja) 2014-01-29

Similar Documents

Publication Publication Date Title
US8356025B2 (en) Systems and methods for detecting sentiment-based topics
US7698129B2 (en) Information processor, customer need-analyzing method and program
Seale et al. Coding and analysing data
Goeuriot et al. Overview of the CLEF eHealth evaluation lab 2015
JP4913154B2 (ja) 文書解析装置および方法
US8340957B2 (en) Media content assessment and control systems
Acosta-Vargas et al. Framework for accessibility evaluation of hospital websites
Wang et al. Automatic detecting indicators for quality of health information on the Web
JP5465171B2 (ja) 文書を解析するためのシステムおよび方法
CN101706794B (zh) 基于语义实体关系模型和可视化推荐的信息浏览检索方法
US20070067317A1 (en) Navigating through websites and like information sources
US20040083424A1 (en) Apparatus, method, and computer program product for checking hypertext
US20050108652A1 (en) Patent claims analysis system and method
US20110138338A1 (en) Patent Claims Analysis System and Method
Kalczynski et al. Temporal document retrieval model for business news archives
Qumsiyeh et al. Searching web documents using a summarization approach
Linge et al. MedISys: medical information system
WO2010055663A1 (ja) 文書解析装置および方法
JP5404287B2 (ja) 文書解析装置および方法
Prabowo et al. A comparison of feature selection methods for an evolving RSS feed corpus
Harber et al. Feasibility and utility of lexical analysis for occupational health text
Qumsiyeh et al. Enhancing web search by using query-based clusters and multi-document summaries
JP2006285825A (ja) リスク定量化支援システム及びリスク定量化支援方法
Guessoum et al. Dealing with decisional natural language why-question in business intelligence
Tassew et al. Knowledge levels of health professional working in Ethiopia toward disaster preparedness, systematic review and meta-analysis

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110601

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110601

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131029

R150 Certificate of patent or registration of utility model

Ref document number: 5404287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees