JP2011232902A - 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム - Google Patents

不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム Download PDF

Info

Publication number
JP2011232902A
JP2011232902A JP2010101663A JP2010101663A JP2011232902A JP 2011232902 A JP2011232902 A JP 2011232902A JP 2010101663 A JP2010101663 A JP 2010101663A JP 2010101663 A JP2010101663 A JP 2010101663A JP 2011232902 A JP2011232902 A JP 2011232902A
Authority
JP
Japan
Prior art keywords
expression
predicate
defect
indicating
predicate expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010101663A
Other languages
English (en)
Other versions
JP5390463B2 (ja
Inventor
Tetsuya Nasukawa
哲哉 那須川
Yuya Unno
裕也 海野
Mutsugu Kuboki
武承 久保木
Takuma Murakami
拓真 村上
Yuki Kurokawa
勇輝 黒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2010101663A priority Critical patent/JP5390463B2/ja
Priority to US13/087,639 priority patent/US8484622B2/en
Publication of JP2011232902A publication Critical patent/JP2011232902A/ja
Application granted granted Critical
Publication of JP5390463B2 publication Critical patent/JP5390463B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】不具合を示す述語表現を自動で抽出することのできる技術を提供する。
【解決手段】不具合述語表現抽出装置100は、突然性を示す連用修飾表現または再現性を示す連用修飾語のいずれか一方の近傍に現れる述語表現を、不具合を示す述語表現の候補として抽出し、また、常性を示す連用修飾表現の近傍に現れる述語表現を、正常を示す述語表現として抽出し、不具合を示す述語表現の候補のリストから、正常を示す述語表現を取り除いて、不具合を示す述語表現を抽出する。
【選択図】図1

Description

本発明は、特定の製品分野に属する製品の使用に関するテキスト・データから、不具合を示す述語表現を抽出するための技術に関する。
近年、掲示板やクレームサイトにおけるユーザからの報告データやお客様サポートセンターの問合せデータなど、製品の使用に関するユーザの声のデータをテキストマイニングにより解析し、自社製品について生じている不具合を検出する不具合検出技術が注目されている。不具合を早期に検出できればより早い対応が可能となり、損失やイメージダウンを抑え企業の競争力の向上に結びつけることができる。
テキストマイニングによる不具合検出技術では、大量のテキストデータ中に出現している膨大な表現の中から不具合に関する表現を抽出し、抽出した表現の分布の偏りや変化を捉えることにより最終的に注目すべき不具合を検出する。抽出対象となる不具合に関する表現の辞書は、人手により作成されるのが一般的である。しかし、不具合に関する表現は多種多様であり、また、不具合を検出する対象製品の分野によっても異なる。そのため、辞書の作成を人手で行うのは困難であり、コンピュータを利用した辞書の構築が望まれる。
マイニングにおいて利用される辞書を自動構築する技術として、特許文献1がある。特許文献1は、特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現を抽出する表現抽出装置であって、肯定的な評価を正極性とし、否定的な評価を負極性とする極性が予め定められた評価表現を、登録表現として登録する登録表現記憶部と、テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出する表現抽出部と、複数の評価表現のうち、登録表現記憶部に登録されている登録表現を含む評価表現を検出する登録表現検出部と、登録表現を含む評価表現に対して順接の接続表現により接続されている評価表現と、当該評価表現に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現とを、登録表現と同一の極性であると判断する極性判断部とを備える表現抽出装置を開示する。
また、不具合に関する表現を抽出する技術として、非特許文献1〜4がある。非特許文献1は、事故原因を表す表現がいくつか係る表現を種表現と定義して人手で1つ与え、種表現に係っている事故原因表現を自動的に取得し、取得したいくつかの事故原因表現から自動的に種表現を取得し、さらに、取得した種表現から再び事故原因表現を取得しといったプロセスを繰り返すことで、事故原因表現、および、その種表現を取得していく方法を開示する。
非特許文献2は、一般的にトラブルになりやすい表現を教師あり学習で集める方法を開示する。より具体的には、非特許文献2は、(1)トラブルの下位語に関する構造パターン情報(lexico-syntacticpatterns for hyponymy relations)、および(2)否定形の動詞と物との係り受け関係(dependency relations between expressions andnegated verbs)を肯定的な証拠として、また、(3)肯定形の動詞と物との係り受け関係(dependency relations between expressions andnon-negated verbs)を否定的な証拠としてトラブルになりやすい表現を収集する技術を開示する。
非特許文献3は、障害情報辞書の拡張方法として、拡張対象の障害情報の前項について構文片リストを検索し、前項が取る後項の頻度の上位10位を後項上位リストとして取得し、該後項上位リストの後項10件を用いて再度構文片リストを検索し、後項が取る前項の頻度の上位10位を前項上位リストとして取得し、該上位リストの前項に拡張対象の後段を連結して障害情報辞書に追加して辞書の拡張を行う方法を開示する。
非特許文献4は、既知のトラブルシュート文書から文中に頻繁に出現する構文を抽出する技術を開示し、より具体的には、既知のトラブルシュート文書に含まれる文を無向グラフに変換し、それらのグラフに共通する部分グラフを得ることで、トラブルシュート文書に頻出する構造を取り出す技術を開示する。
特開2005−235014号公報
酒井、梅村、増山、「交通事故例に含まれる事故原因表現の新聞記事からの抽出」、自然言語処理Vol. 13, No.2、2006年4月 S. D. Saeger, K. Torisawa, J. Kazama, "Looking for Trouble", Proceedingsof the 22nd International Conference on Computational Linguistics (Coling2008), pages 185–192, Manchester, August 2008] 柿本、山本、「構文片を用いた日報からの障害情報抽出」、言語処理学会、第14回年次大会、発表論文集、2008年3月 栗田 光晴、外4名、「Webフォーラムの構文情報を用いたトラブルシュート文書抽出」、情報処理学会、全国大会講演論文集、第70回、2008年3月
しかしながら、特許文献1が開示する辞書の自動構築方法は、評価表現を対象としており、評価表現に見られる傾向、即ち、評価表現は連続して出現することが多く、肯定的な評価表現の前後には肯定的な評価表現が並び、否定的な評価表現の前後には否定的な評価表現が並ぶことが多いという傾向を利用している。そのため、そのような傾向の見られない不具合に関する表現に対し、特許文献1の技術を適用することはできない。
また、非特許文献1が開示する方法によって抽出されるのは事故原因表現である。また、非特許文献2が開示する方法によって抽出されるトラブルになりやすい表現は名詞である。通常このような名詞は不具合を生じている主体や不具合の原因を示す。従って、非特許文献1や非特許文献2が開示する方法では、製品について生じている不具合現象そのものを示す表現を抽出することはできない。
また、非特許文献3が開示する方法によって障害情報として取得される構文片は、係り受けもしくは句の連鎖である。また、非特許文献4が開示する方法によって取得されるのはトラブルシュート文書に頻出する構文である。上述したように、テキストマイニングによる不具合検出技術では、抽出した表現の分布の偏りや変化を捉えることが重要である。そのためには、抽出する表現が十分な頻度で解析対象のデータに含まれている必要がある。構文片や構文のように長い抽出対象は出現頻度が小さくなってしまうため、不具合に関する表現の辞書に登録する表現として不適切である。
この発明は、上記の問題点を解決するためになされたものであって、不具合に関する表現のうち、不具合現象を簡潔に示すことができる表現である述語表現を、コンピュータによる処理により抽出することのできる技術を提供することを目的とする。また、本発明は、特定の製品分野に限定されることなく各製品分野に共通の方法で不具合を示す述語表現を抽出することのできる技術を提供することを目的とする。
上記目的を達成する本発明は、次のような、特定の製品分野に属する製品の使用に関するテキスト・データから、不具合を示す述語表現を抽出するための不具合述語表現抽出装置によって実現される。そのような不具合述語表現抽出装置は、突然性を示す連用修飾表現または再現性示す連用修飾表現の少なくとも一方の連用修飾表現を格納する不具合表現検出用の連用修飾表現格納部と、前記不具合表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現の近傍に出現する前記テキスト・データ内の述語表現を、不具合を示す述語表現の候補として抽出する不具合述語表現候補抽出部と、正常性を示す連用修飾表現を格納する正常表現検出用の連用修飾表現格納部と、前記正常表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現の近傍に出現する前記テキスト・データ内の述語表現を、正常を示す述語表現として抽出する正常述語表現抽出部と、前記不具合を示す述語表現の候補として抽出された述語表現のリストから、前記正常述語表現抽出部により抽出された述語表現を除いた残りを、前記不具合を示す述語表現として取得する不具合述語表現取得部とを備える。
好ましくは、前記突然性を示す連用修飾表現は、「突然」、「急に」、「いきなり」、「突如」、「突如として」、「突然に」、「不意に」、「唐突」、「たちまち」、「出し抜け」、「咄嗟」、「俄然」、「忽然」、及び「はたと」のうちの少なくとも1つを含む。また、好ましくは前記再現性を示す連用修飾表現は、「度々」、「時々」、「頻繁」に、「何度も」、「再三」、及び「しきりに」のうちの少なくとも1つを含む。また、好ましくは前記正常性を示す連用修飾表現は、「きちんと」、「しっかり」、「正しく」、「普通に」、「正確に」、「一向に」、「全然」、「ほとんど」、「正常に」、「きっちりと」、「ちゃんと」、「ちょうど」、「整然と」、「きっかり」、「きっかりと」、及び「かっちり」のうちの少なくとも1つを含む。
好ましくは、前記不具合述語表現候補抽出部は、前記不具合表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、該検出した連用修飾表現が直接修飾する述語表現を、前記不具合を示す述語表現の候補として抽出する。同様に、前記正常述語表現抽出部は、前記正常表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、該検出した連用修飾表現が直接修飾する述語表現を、前記正常を示す述語表現として抽出する。
好ましくは、前記不具合述語表現候補抽出部は、前記不具合を示す述語表現の候補として抽出する各述語表現について、前記不具合表現検出用の連用修飾表現格納部に格納されている1以上の連用修飾表現のいずれかの近傍に出現する出現回数をカウントする。同様に、前記正常述語表現抽出部は、前記正常を示す述語表現として抽出する各述語表現について、前記正常表現検出用の連用修飾表現格納部に格納されている1以上の連用修飾表現のいずれかの近傍に出現する出現回数をカウントする。そして前記不具合述語表現取得部は、前記不具合述語表現候補抽出部及び前記正常述語表現抽出部の両抽出部によって同じ述語表現が抽出された場合、該述語表現に対し前記両抽出部がそれぞれカウントした出現回数に基づいて、前記同じ述語表現を、前記不具合を示す述語表現とするか否かを決定する。
好ましくは、上記不具合述語表現抽出装置は、製品の使用に関するテキスト・データから、特定の不具合を示す述語表現と共起する連用修飾表現を抽出し、該連用修飾表現を前記不具合表現検出用の連用修飾表現格納部に登録する、不具合表現検出用の連用修飾表現登録部を更に含む。
好ましくは、上記不具合述語表現抽出装置は、前記不具合述語表現取得部により取得された前記不具合を示す述語表現を格納する、不具合述語表現格納部と、前記特定の製品分野に属する製品の使用に関する解析対象のテキスト・データから、前記不具合述語表現格納部に格納されている不具合を示す述語表現と一致する述語表現を検出し、検出した前記述語表現の近傍に出現する前記解析対象のテキスト・データ内の名詞表現を抽出する分析対象抽出部と、検出した前記不具合を示す述語表現と一致する前記述語表現と抽出した前記名詞表現との組を分析対象とし、該分析対象を、該分析対象の抽出回数に関連付けて格納する分析対象格納部とを更に含む。
さらに好ましくは、上記不具合述語表現抽出装置は、前記分析対象格納部に格納される前記分析対象ごとにその相関値を算出し、前記分析対象ごとの前記相関値を分析結果として生成する分析結果生成部を更に含む。
以上、特定の製品分野に属する製品の使用に関するテキスト・データから、不具合を示す述語表現を抽出するための不具合述語表現抽出装置として本発明を説明した。しかし、本発明は、そのような不具合述語表現抽出装置において実行される、不具合述語表現抽出方法又は不具合述語表現抽出プログラムとして把握することもできる。
本発明によれば、コンピュータ処理により自動で、不具合に関する表現のうち、不具合現象を簡潔に示すことができる表現である述語表現を抽出することができる。また、本発明は、突然性を示す連用修飾表現や再現性を示す連用修飾表現、また、正常性を示す連用修飾表現といった、各製品分野に共通の情報を利用して不具合を示す述語表現が取得するので、本発明によれば、特定の製品分野に限定されることなく各製品分野に共通の方法で不具合を示す述語表現を抽出することができる。本発明のその他の効果については、各実施の形態の記載から理解される。
本発明の実施の形態に係る不具合述語表現抽出装置100の機能構成の一例を示す図である。 本発明の実施の形態に係る不具合述語表現抽出装置100の処理対象となる文章の一例を示す。 本発明の実施の形態に係る不具合述語表現抽出装置100の動作フローの一例を示す図である。 抽出される不具合述語表現の精度を、従来手法と本発明とで比較した表の一例である。 従来手法により抽出した不具合述語表現を登録した辞書を用いて得られる不具合文書データの分析結果の一例を示す図である。 本発明を用いて抽出した不具合述語表現を登録した辞書を用いて得られる不具合文書データの分析結果の一例を示す表である。 本発明の実施の形態に係る不具合述語表現抽出装置100を実現するのに好適な情報処理装置のハードウェア構成の一例を示した図である。
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。
図1は本発明の実施形態に係る不具合述語表現抽出装置100の機能構成の一例を示す。不具合述語表現抽出装置100は、掲示板やクレームサイトなどウェブ上で収集されるユーザからの報告データやお客様サポートセンターの問合せデータなど、特定の製品分野に属する製品の使用に関するデータを辞書作成用のテキスト・データとして取得する。なお、データが音声として取得される場合、事前に音声認識によりテキスト・データに変換しておくものとする。そして不具合述語表現抽出装置100は、辞書作成用のテキスト・データから、製品の不具合に関する表現のうち、不具合を示す述語表現を抽出する。このように述語表現を抽出対象とするのは、不具合現象を簡潔に示すことができる表現であるからである。
製品の使用に関するユーザの声のデータにおいて、不具合を示す述語表現は、製品分野に依らず、突然性を示す連用修飾表現(例えば「突然」、「いきなり」、「急に」)や、再現性を示す連用修飾語(例えば「度々」、「時々」、「頻繁に」)に修飾されて現れることが多い。その一方で、不具合を示す述語表現は、正常性を示す連用修飾表現(例えば、「きちんと」、「しっかり」、「正しく」)に修飾されて現れることはない。そこで本発明の実施形態に係る不具合述語表現抽出装置100はこの傾向を利用し、突然性を示す連用修飾表現または再現性を示す連用修飾語のいずれか一方の近傍に現れる述語表現を、不具合を示す述語表現の候補として抽出する。また、不具合述語表現抽出装置100は、正常性を示す連用修飾表現の近傍に現れる述語表現を、正常を示す述語表現として抽出する。そして、不具合述語表現抽出装置100は、不具合を示す述語表現の候補から、ノイズである正常を示す述語表現を取り除いて、不具合を示す述語表現を抽出する。
このような本発明の実施形態に係る不具合述語表現抽出装置100は、前処理部105、第1連用修飾表現格納部(特許請求の範囲における不具合表現検出用の連用修飾表現格納部に対応)110、第1連用修飾表現登録部(特許請求の範囲における不具合表現検出用の連用修飾表現登録部に対応)115、不具合述語表現候補抽出部120、第2連用修飾表現格納部(特許請求の範囲における正常表現検出用の連用修飾表現格納に対応)125、正常述語表現抽出部135、不具合述語表現取得部140、不具合述語表現格納部145、分析対象抽出部150、分析対象格納部155、分析結果生成部160を備える。なお、以下では、不具合述語表現抽出装置100に入力する辞書作成用のテキスト・データや解析対象のテキスト・データは、全て日本語のデータであるとして説明する。しかし入力データが英語など他言語のデータであっても、各構成要素の機能に違いはないことに留意されたい。
前処理部105は、不具合述語表現抽出装置100に入力される辞書作成用のテキスト・データおよび解析対象のテキスト・データに対し、前処理として、形態素解析と係り受け解析とを行う。形態素解析は、入力されるデータのテキストを言語として意味を成す最小単位の単語(形態素)に分け、品詞など各単語の属性を付加する処理である。その処理方法としては、例えば、最長一致法、コスト最小法、用例検索法などがある。また、係り受け解析は、文節の係り受け関係を求める処理である。形態素解析や係り受け解析は公知の技術(例えば、「言語処理学事典」、言語処理学会編、共立出版社、2009年12月を参照)であり、また、市販又はフリーのツールを利用することも可能であるため、詳細な説明は省略する。
第1連用修飾表現格納部110は、突然性を示す連用修飾表現又は再現性示す連用修飾表現の少なくとも一方の連用修飾表現を格納する。ここで、連用修飾表現とは、連用修飾語として識別される表現をいい、副詞と連用節とを含む。また、「突然性」とは、「意に反して急に発生するような性質」を意味する。従って、突然性を示す連用修飾表現としては、例えば、「突然」、「急に」、「いきなり」、「突如」、「突如として」、「突然に」、「不意に」、「唐突」、「たちまち」、「出し抜け」、「咄嗟」、「俄然」、「忽然」、「はたと」を挙げることができる。また、「再現性」とは、「繰り返し発生する性質」を意味する。従って、再現性を示す連用修飾表現としては、例えば、「度々」、「時々」、「頻繁」に、「何度も」、「再三」、「しきりに」を挙げることができる。このように、突然性を示す連用修飾表現又は再現性示す連用修飾表現であることが予め分かっている連用修飾表現は、第1連用修飾表現格納部110に手動により事前に登録しておく。
なお、再現性を示す連用修飾表現の中には、「S(例えば、使用)ごとに」や「S(例えば、起動)のたびに」のように、任意の表現部分Sを含むもの、また、「M(例えば、1日)とあけずに」、「M(例えば、2回)にN(例えば、1)回」、「M(例えば、1時間)にN(例えば、1)度」のように、任意の数字(M、N)を含むものがある。このように任意の表現部分を含む連用修飾表現については、任意の表現部分を除いた残りの部分のみを、又は「(数値)+(回、時間、分、秒、日、週間、月又は年)+(数値)+(回又は度)」のようにパターン情報を第1連用修飾表現格納部110に登録してもよい。
第1連用修飾表現登録部115は、製品の使用に関するテキスト・データから、特定の不具合を示す述語表現と共起する連用修飾表現を抽出し、該連用修飾表現を不具合表現検出用の連用修飾表現として第1連用修飾表現格納部110に登録する。ここで、特定の不具合を示す述語表現とは、例えば「故障する」など不具合を示す述語表現であることが事前に分かっているものである。また、共起するか否かの判断は、相互情報量、Zスコア、対数尤度比等の値を利用できる。なお、不具合表現検出用の連用修飾表現を抽出する元となるテキスト・データは、上述した辞書作成用のテキスト・データであってもよく、あるいは、同じ又は異なる製品分野に属する製品の不具合に関して記述されている他のテキスト・データであってもよい。
不具合述語表現候補抽出部120は、第1連用修飾表現格納部110に格納されている連用修飾表現と一致する表現を辞書作成用のテキスト・データから検出し、検出した表現の近傍に出現する辞書作成用のテキスト・データ内の述語表現を、不具合を示す述語表現の候補として抽出する。ここで、一致するか否かの判断は、語幹での一致をみて判断してもよく、あるいは、事前に連用修飾表現の活用パターンを網羅的に用意して第1連用修飾表現格納部110に登録しておき、各パターンとの完全一致をみて判断してもよい。そして、不具合述語表現候補抽出部120は、抽出した述語表現を原型になおして、後述する不具合述語表現取得部140へ渡す。ここで検出した連用修飾表現の近傍に出現する述語表現であるか否かの判断は、検出した連用修飾表現から所定の単語数内(例えば、5単語以内や隣、但し同じ文章内とする)に出現する表現であって、かつその品詞が動詞である表現であるか否かの判断により行ってよい。
例えば、第1連用修飾表現格納部110に突然性を示す連用修飾表現として「いきなり」が格納されているとする。また、近傍の定義を5単語以内に設定しているものとする。すると図2に示す文章1の例では、連用修飾表現205の「いきなり」が検出され、該連用修飾表現205の近傍として、該連用修飾表現205から5単語以内にある動詞210、「壊れた」が不具合を示す述語表現の候補として抽出される。なお、上記条件に該当する動詞が複数ある場合は、検出した連用修飾表現に最も近い位置にある動詞のみを抽出するものとする。
上記構成に代えて、不具合述語表現候補抽出部120は、第1連用修飾表現格納部110に格納されている連用修飾表現と一致する表現を辞書作成用のテキスト・データから検出し、検出した表現が直接修飾する辞書作成用のテキスト・データ内の述語表現を係り受け関係から求めて、不具合を示す述語表現の候補として抽出してもよい。これを、再び図2に示す文章1を例として説明する。第1連用修飾表現格納部110に突然性を示す連用修飾表現として「いきなり」が格納されているとすると、文章1の例では、連用修飾表現205の「いきなり」が検出され、該連用修飾表現205が直接修飾している動詞210、「壊れた」が不具合を示す述語表現の候補として抽出される。
更に、不具合述語表現候補抽出部120は、不具合を示す述語表現の候補として抽出する各述語表現について、辞書作成用のテキスト・データ内において、第1連用修飾表現格納部110に格納されている1以上の連用修飾表現のいずれかの近傍に出現する出現回数をカウントして該出現回数を保持しておいてもよい。なお、カウントした出現回数の利用方法は後述する。
第2連用修飾表現格納部125は、正常性を示す連用修飾表現を格納する。ここで、「正常性」とは、「意に即した、通常通りの性質」を意味する。従って、正常性を示す連用修飾表現としては、例えば、「きちんと」、「しっかり」、「正しく」、「普通に」、「正確に」、「一向に」、「全然」、「ほとんど」、「正常に」、「きっちりと」、「ちゃんと」、「ちょうど」、「整然と」、「きっかり」、「きっかりと」、「かっちり」を挙げることができる。このように、正常性を示す連用修飾表現であることが予め分かっている連用修飾表現は、第2連用修飾表現格納部125に手動により事前に登録しておく。
正常述語表現抽出部135は、第2連用修飾表現格納部125に格納されている連用修飾表現と一致する表現を辞書作成用のテキスト・データから検出し、検出した表現の近傍に出現する辞書作成用のテキスト・データ内の述語表現を、正常を示す述語表現として抽出する。ここで、一致するか否かの判断は、語幹での一致をみて判断してもよく、あるいは、事前に連用修飾表現の活用パターンを網羅的に用意して第2連用修飾表現格納部125に登録しておき、各パターンとの完全一致をみて判断してもよい。そして、正常述語表現抽出部135は、抽出した述語表現を原型になおして、後述する不具合述語表現取得部140へ渡す。ここで、検出した連用修飾表現の近傍に出現する述語表現であるか否かの判断は、検出した連用修飾表現から所定の単語数内(例えば5単語以内や隣、但し同じ文書内とする)に出現する表現であって、かつ品詞が動詞である表現であるか否かの判断により行ってよい。条件に該当する動詞が複数ある場合は、検出した連用修飾表現に最も近い位置にある動詞のみを抽出するものとする。
上記構成に代えて、正常述語表現抽出部135は、第2連用修飾表現格納部125に格納されている連用修飾表現と一致する表現を辞書作成用のテキスト・データから検出し、該検出した連用修飾表現が直接修飾する述語表現を係り受け関係から求めて、正常を示す述語表現として抽出してもよい。更に、正常述語表現抽出部135は、正常を示す述語表現として抽出する各述語表現について、辞書作成用のテキスト・データ内において、第2連用修飾表現格納部125に格納されている1以上の連用修飾表現のいずれかの近傍に出現する出現回数をカウントし、該出現回数を保持しておいてもよい。なお、カウントした出現回数の利用方法は後述する。
不具合述語表現取得部140は、不具合を示す述語表現の候補として抽出された述語表現のリストから、正常述語表現抽出部135により抽出された述語表現を除いた残りを、不具合を示す述語表現として取得する。これに代えて不具合述語表現取得部140は、不具合述語表現候補抽出部120及び正常述語表現抽出部135の両抽出部によって同じ述語表現が抽出された場合、該述語表現に対して両抽出部120、135がそれぞれカウントした出現回数に基づいて、両抽出部120、135によって抽出された述語表現を、不具合を示す述語表現とするか否かを決定してもよい。
具体的には、不具合述語表現取得部140は、不具合述語表現候補抽出部120によりカウントされた出現回数が、正常述語表現抽出部135によりカウントされた出現回数よりも多いことを条件に、両抽出部120、135によって抽出された述語表現を、不具合を示す述語表現として取得する。なお、不具合述語表現取得部140は、不具合述語表現候補抽出部120のみが抽出した述語表現は、そのまま不具合を示す述語表現として取得する。不具合述語表現取得部140は、取得した不具合を示す述語表現を不具合述語表現格納部145に格納する。
このようにして不具合を示す述語表現が登録された不具合述語表現格納部145は、不具合検出のためのテキストマイニングにおいて、不具合を示す述語表現の辞書として利用できる。なお、不具合を示す述語表現自体は製品分野ごと異なり、ある特定の製品分野について不具合検出を希望する場合は、該特定の製品分野に属する製品の使用に関するデータを、辞書作成用のテキスト・データとして不具合述語表現抽出装置100に入力する。その一方で、第1連用修飾表現格納部110及び第2連用修飾表現格納部125に格納すべき各連用修飾表現は、特定の製品分野に異存しないので、各製品分野に共通のデータとして利用できる。
分析対象抽出部150は、製品の使用に関する解析対象のテキスト・データから、不具合述語表現格納部145に格納されている不具合を示す述語表現と一致する表現を検出し、検出した述語表現の近傍に出現する解析対象のテキスト・データ内の名詞表現を抽出する。ここで、解析対象のテキスト・データと、不具合述語表現格納部145に格納されている不具合を示す述語表現を抽出するために使用された辞書作成用のテキスト・データは、それぞれ、同じ製品分野に属する製品の使用に関するテキスト・データである。また、本実施例では、不具合述語表現格納部145に格納されている不具合を示す述語表現は動詞の原型であるため、一致するか否かの判断は、形態素解析などの基本的言語処理を通じて認識される語幹の一致性の確認により行ってよい。これに代えて、事前に述語表現の動詞の活用パターンを網羅的に不具合述語表現格納部145に登録しておき、一致するか否かの判断を、各パターンとの完全一致を検討することにより行ってもよい。分析対象抽出部150はまた、検出した述語表現と抽出した名詞表現の組を分析対象として、該分析対象を、その抽出回数とともに分析対象格納部155に格納する。
ここで、検出した述語表現の近傍に出現する名詞表現であるか否かの判断は、検出した述語表現から所定の単語数内(例えば、2単語以内や隣、但し同じ文章内とする)に出現する名詞であるか否かの判断により行ってよい。例えば、不具合述語表現格納部145に不具合を示す述語表現として「割れる」が格納されているとする。また、近傍の定義を2単語以内に設定しているものとする。すると図2に示す文章2の例では、述語表現220の「割れた」が検出され、該述語表現220の近傍として、該述語表現220から2単語以内にある名詞215、「窓ガラス」が分析対象として抽出される。
上記例において、例えば近傍の定義を3単語以内とすると、述語表現220の近傍として、「窓ガラス」のほかに「後部座席」も抽出される。このように、近傍の定義によっては複数の名詞が抽出される。そこで、このような場合には、例えば、主格を取る、ガ格ハ格取る、検出した述語表現に距離的により近い表現を取る、全部を抽出する等の方法により対応する。いずれの方法を選択するかは、何を重視するか(例えば、精度又は網羅性)、また、構文解析の結果として利用できる情報の種類等に依存する。
これに代えて、検出した述語表現の近傍の定義を、検出した述語表現の主格としてもよい。即ち、分析対象抽出部150は、不具合述語表現格納部145に格納されている述語表現と一致する表現を解析対象のテキスト・データから検出し、該検出した述語表現の主格を抽出して、検出した述語表現の近傍に出現する名詞表現としてもよい。
分析結果生成部160は、分析対象格納部155に格納される分析対象、即ち、名詞表現Aと述語表現Bの組ごとにその相関値を算出し、分析対象ごとの相関値を分析結果として生成する。分析対象AとBの相関値の計算は次式より求められる。
Figure 2011232902

ここでDは全データを表現し、#はデータの件数を示す。すなわち、#(A∩B)はAとBの両方を含むデータの件数であり、#Dはデータ全体の件数である。相関値は上記の数式における#(A∩B) が小さい場合、値の信頼性が低くなる。 信頼性が無いのに高い相関値が算出されてしまい、分析作業の効率や精度が落ちる、といったことがないように、区間推定を用いて、信頼性の無い値は小さめに補正することができる。区間推定法では、「文書が無限にある場合の真の相関値αを未知数とした際、一定確率以下の偶然を除いて、現状の相関値を実現し得る最小のα」を算出する。分析結果生成部160により生成された分析結果は、プリンタやディスプレイ等の出力装置に出力してよい。
次に図3を参照して、本発明の実施の形態に係る不具合述語表現抽出装置100の動作フローを説明する。図3に示す動作フローは、ステップ305から開始し、前処理部105は、特定の製品分野に属する製品の使用に関するデータを辞書作成用のテキスト・データとして受け取り、該テキスト・データについて、形態素解析および係り受け解析をおこなう。形態素解析および係り受け解析の結果は、図示しない記憶装置に格納して後述する処理において利用できるようにする。
続いて、不具合述語表現候補抽出部120は、第1連用修飾表現格納部110に格納されている突然性を示す連用修飾表現又は再現性を示す連用修飾表現を1つ読み出し、辞書作成用のテキスト・データをスキャンして、読み出した連用修飾表現に一致する表現を検出する。一致する表現を検出すると、不具合述語表現候補抽出部120は、形態素解析や係り受け解析の結果を参照して、検出した表現の近傍にある述語表現を、不具合を示す述語表現の候補として抽出する(ステップ310)。
近傍であるか否かの判断は、事前に設定された近傍の範囲の定義(例えば、連用修飾表現から所定の単語数以内の範囲といった定義)に従って行ってよい。あるいは、検出された連用修飾表現が直接修飾する表現を、近傍にある述語表現であるとして処理してもよい。不具合述語表現候補抽出部120は、かかる処理を、第1連用修飾表現格納部110に格納されている全ての連用修飾表現について行う。
続いて、正常述語表現抽出部135は、第2連用修飾表現格納部125に格納されている正常性を示す連用修飾表現を1つ読み出し、辞書作成用のテキスト・データをスキャンして、読み出した連用修飾表現に一致する表現を検出する。一致する表現を検出すると、正常述語表現抽出部135は、形態素解析や係り受け解析の結果を参照して、検出した表現の近傍にある述語表現を、正常を示す述語表現として抽出する(ステップ315)。近傍であるか否かの判断は、ステップ310に関して説明したのと同様の方法で行ってよい。正常述語表現抽出部135は、かかる処理を、第2連用修飾表現格納部125に格納されている全ての連用修飾表現について行う。
両抽出部120および135がそれぞれ抽出した述語表現は、原型になおして不具合述語表現取得部140へ渡される。また、両抽出部120および135がそれぞれ、上述したように、抽出した述語表現ごとに抽出回数をカウントする場合、該抽出回数もまた抽出された述語表現と共に不具合述語表現取得部140へ渡される。例えば、辞書作成用のテキスト・データ内において「故障する」という述語表現が、「いきなり」という突然性を示す連用修飾表現の近傍で5回、「たびたび」という再現性を示す連用修飾表現の近傍で2回出現したとする。この場合、不具合述語表現候補抽出部120は、「故障する」という述語表現と共に、その抽出回数7回(=5+2)を不具合述語表現取得部140へ渡す。正常性を示す述語表現についても同様である。
続いて、不具合述語表現取得部140は、不具合を示す述語表現の候補として抽出された述語表現のリストから、正常述語表現抽出部135により抽出された述語表現を除いた残りを、不具合を示す述語表現として取得する(ステップ320)。なお、抽出された述語表現の各々と共にその抽出回数を受け取る場合、不具合述語表現取得部140は、次のようにして不具合を示す述語表現を取得する。
即ち、不具合述語表現取得部140は、不具合述語表現候補抽出部120のみが抽出した述語表現は、そのまま不具合を示す述語表現として取得する。一方、両抽出部120、135によって抽出された述語表現については、不具合述語表現取得部140は、不具合述語表現候補抽出部120によりカウントされた出現回数が、正常述語表現抽出部135によりカウントされた出現回数よりも多いことを条件に、上記述語表現を、不具合を示す述語表現として取得する。不具合述語表現取得部140は、取得した不具合を示す述語表現を、不具合述語表現格納部145に格納する。
不具合を示す述語表現が不具合述語表現格納部145に格納され、不具合を示す述語表現の辞書が完成した後、分析対象抽出部150は、不具合述語表現格納部145に格納されている不具合を示す述語表現を1つ読み出し、今度は解析対象のテキスト・データをスキャンして、読み出した述語表現に一致する表現を検出する。一致する述語表現を検出すると、分析対象抽出部150は、解析対象のテキスト・データに対する形態素解析や係り受け解析の結果を参照して、検出した述語表現の近傍にある名詞表現を抽出する(ステップ325)。抽出された名詞表現は、検出した述語表現と共に分析対象として、該分析対象の抽出回数とともに分析対象格納部155に格納される。
なお、分析対象抽出部150が解析対象とするテキスト・データは、辞書作成用のテキスト・データが関係する製品分野と同じ製品分野に含まれる1以上の製品の使用に関するテキスト・データである。また、解析対象とするテキスト・データについての前処理は、ステップ325の処理前に前処理部105によりなされているものとする。また、ステップ325の処理において近傍であるか否かの判断は、事前に設定された近傍の範囲の定義(例えば、述語表現から所定の単語数以内の範囲といった定義)に従って行ってよい。あるいは、検出された述語表現の主格となる表現を、近傍にある名詞表現であるとして処理してもよい。分析対象抽出部150は、かかる処理を、不具合述語表現格納部145に格納されている全ての述語表現について行う。
続いて分析結果生成部160は、分析対象格納部155に格納される分析対象ごとにその相関値を算出し、分析対象ごとの相関値および抽出回数を分析結果として出力するする(ステップ330)。そして処理は終了する。このように、不具合を示す述語表現とその主格としての名詞表現の組を分析対象として取得することにより、どの製品またはどの部品について不具合が生じているのか、あるいはどのような要因で不具合が起こったのかを調査することが可能となる。また、分析対象ごとその相関値を求めることで、特定の製品または部品に特徴的な不具合、あるいは不具合を引き起こし易い要因を突き止めることが可能となる。
次に図4に示す実験結果を参照して、本発明の有効性を説明する。図4は、抽出される不具合述語表現の精度を従来手法と本発明とで比較した表を示す。図4に示す実験結果において、辞書作成用のテキスト・データとして使用したのは、日本語および英語のPCヘルプセンターへの問合せデータと、日本語および英語の自動車のユーザから収集された自動車不具合情報の合計4種類である。これら4種類のテキスト・データそれぞれについて、従来手法と本発明を用いて不具合を示す述語表現を抽出した。
なお、本実験における従来手法は、辞書作成用のテキスト・データに含まれる動詞について出現頻度を求め、その上位の頻出動詞を、不具合を示す述語動詞として抽出する方法である。また、本発明については、ノイズ処理前、即ち、上述した不具合述語表現候補抽出部120により抽出された不具合述語表現の候補の全てを不具合述語表現とした場合と、ノイズ処理後、即ち、不具合述語表現の候補から、正常を示す述語表現を取り除いたものを不具合述語表現とした場合のそれぞれについて精度を求めた。なお、本発明による不具合述語表現の抽出方法は、データの言語に拠らないことに留意されたい。
図4に示す表において、最左端の列は、使用した辞書作成用のテキスト・データの種類を示し、最上段の行は、使用した不具合述語表現の抽出方法を示す。また、表中の「不具合述語表現数」の列の式は、(実際に不具合を示す述語表現であると確認できた件数)/(抽出された不具合を示す述語表現の件数)を示し、「精度」の列の数値は、「不具合述語表現数」の列に登録された式から求められる値を示す。従って、日本語のPCヘルプセンターへの問合せデータに対する従来手法の実験結果の式64/2000と数値3.2%は、それぞれ、頻出動詞の上位2000件のうち、実際に不具合を示す述語表現と確認できたのは64件であり、その精度が3.2%(=64/2000)であることを示している。
同じデータに対する本発明(ノイズ処理前)の実験結果を見ると、抽出された不具合を示す述語表現は385件であり、そのうち実際に不具合を示す述語表現として確認されたのは28件であり、精度は7.3%であることが分かる。実際に不具合を示す述語表現を探すのに、従来手法では、2000件の動詞を対象としなければならないのに対し、本発明(ノイズ処理前)では385件の動詞を対象とすればよい。従って、作業の手間という観点から、本発明(ノイズ処理前)は従来手法に比べ、81%のコストダウンを図ることができたといえる。「不具合述語表現数」の列の括弧内の数値は、この従来手法と比較したコストダウンの割合を示している。「精度」の列の弧内の数値は、従来手法における精度3.2%から4.1ポイント上昇したことを示している。
また、同じデータに対する本発明(ノイズ処理後)の実験結果を見ると、抽出された不具合を示す述語表現は92件、そのうち実際に不具合を示す述語表現として確認されたのは21件であり、従来手法に比べて、精度は15.5ポイント上昇し、作業の手間については95%のコストダウンを図ることができたことが分かる。他の3種のデータについての実験結果も同様の傾向が見られる。従って、本発明によれば、ノイズ処理の前後どちらの場合でも、従来手法に比べ、不具合述語を抽出するのにかかるコストを削減し、かつ精度を上げることができ、ノイズ処理を行うことでより一層その効果を高めることができるといえる。
次に図5および6を参照して、他の観点から本発明の有効性を説明する。図5は、従来手法により抽出した不具合述語表現を登録した辞書を用いて得られる不具合文書データの分析結果の一例を示す図である。なお、本実験における従来手法は、辞書作成用の自動車の不具合に関するテキスト・データに含まれる動詞について出現頻度を求め、その上位の頻出動詞の中から、人手で不具合を示す述語動詞を抽出する方法である。図6は、本発明(ノイズ処理あり)により抽出した不具合述語表現を登録した辞書を用いて得られる不具合文書データの分析結果の一例を示す表である。図5に示す分析結果と、図6に示す分析結果は、どちらも同じ、自動車のユーザから収集された、自動車のモデルごとの自動車不具合情報(日本語)を分析対象のデータとしている。
図5および図6に示す表において、左端の列は、自動車のモデルの種類および該モデルのモデル名が分析対象のデータ内に出現した回数を示し、最上段の行は、使用した辞書に含まれる頻出の不具合を示す述語表現および該述語表現が分析対象のデータ内に出現した回数を示す。表中各セル内の数値は、各述語表現が各モデルのモデル名と共起した回数を示し、括弧内の数値はその相関値を示す。相関値は上述した数式1により求めたものである。なお、本実験においては、区間推定を用いている。上述したように、区間推定法では、「文書が無限にある場合の真の相関値αを未知数とした際、一定確率以下の偶然を除いて、現状の相関値を実現し得る最小のα」を算出しており、図5及び図6に示す例では、この一定確率を90%に設定してある。
この相関値は、直感的な解釈としては、分布に偏りがないと仮定する場合に比較して共起回数が何倍程度多いかを示す値である。例えば、図5の表に示されるModelFに関する実験結果は、Model Fと「加速する」が共起する回数は31回であり、その割合が他のモデルに比べ4.1倍高いことを示している。この分析結果から、ModelFについて加速するといった何らかの不具合がある可能性が高いことが分かる。このように、相関値が高いデータを見つけることが、不具合を早期に検出できることにつながる。
そこで図5および図6の各表において、相関値が高いセル(相関値が2.0上のセル)に網掛けをした。すると、図5に示す表では網掛けのセルは1つであるのに対し、図6に示す表では網掛けのセルは6つとなった。このことは、本発明を用いて構築された辞書には、不具合現象を検出するのにより適切な不具合述語表現(図6に示す表の例では、「発進する」、「変速する」、「下がる」、「オーバーヒートする」、「急発進する」、「滑る」)が多く含まれていることを示す。このように、本発明によれば、人手では抽出されないような、不具合現象を検出するのに適切な不具合述語表現を抽出できる。
図7は、本実施形態に係るコンピュータ50のハードウェア構成の一例を示した図である。コンピュータ50は、バス2に接続されたメインCPU(中央処理装置)1とメインメモリ4を含んでいる。ハードディスク装置13、30、及びCD−ROM装置26、29、フレキシブル・ディスク装置20、MO装置28、DVD装置31のようなリムーバブル・ストレージ(記録メディアを交換可能な外部記憶システム)がフレキシブル・ディスクコントローラ19、IDEコントローラ25、SCSIコントローラ27などを経由してバス2へ接続されている。
フレキシブル・ディスク、MO、CD−ROM、DVD−ROMのような記憶メディアが、リムーバブル・ストレージに挿入される。これらの記憶メディアやハードディスク装置13、30、ROM14には、オペレーティング・システムと協働してCPU1等に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記録することができる。即ち、上記説明した数々の記憶装置には、コンピュータ50にインストールされ、コンピュータ50を不具合述語表現抽出装置100として機能させる不具合述語表現抽出プログラムを記録することができる。
上記不具合述語表現抽出プログラムは、前処理モジュールと、第1連用修飾表現格納部110を管理する第1連用修飾表現格納モジュールと、第1連用修飾表現登録モジュールと、不具合述語表現候補抽出モジュールと、第2連用修飾表現格納部125を管理する第2連用修飾表現格納モジュールと、正常述語表現抽出モジュールと、不具合述語表現取得モジュールと、不具合述語表現格納部145を管理する不具合述語表現格納モジュールと、分析対象抽出モジュールと、分析対象格納部155を管理する分析対象格納モジュールと、分析結果生成モジュールを含む。これらモジュールは、CPU1等に働きかけて、コンピュータ50を、前処理部105、第1連用修飾表現格納部(特許請求の範囲における不具合表現検出用の連用修飾表現格納部に対応)110、第1連用修飾表現登録部(特許請求の範囲における不具合表現検出用の連用修飾表現登録部に対応)115、不具合述語表現候補抽出部120、第2連用修飾表現格納部(特許請求の範囲における正常表現検出用の連用修飾表現格納に対応)125、正常述語表現抽出部135、不具合述語表現取得部140、不具合述語表現格納部145、分析対象抽出部150、分析対象格納部155、および分析結果生成部160としてそれぞれ機能させる。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。
コンピュータ50は、キーボード/マウス・コントローラ5を経由して、キーボード6やマウス7のような入力デバイスからの入力を受ける。コンピュータ50は、オーディオコントローラ21を経由して、マイク24からの入力を受け、またスピーカー23から音声を出力する。コンピュータ50は、視覚データをユーザに提示するための表示装置11に、グラフィックスコントローラ10を経由して接続される。コンピュータ50は、ネットワーク・アダプタ18(イーサネット(登録商標)・カードやトークンリング・カード)等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。
以上の説明により、本実施形態に係るコンピュータ50は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、又は、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えることが可能であることが当業者に明らかである。従って、そのような変更又は改良を加えた形態も当然に本発明の技術的範囲に含まれる。
なお、特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り任意の順序で実現しうることに留意すべきである。また、前の処理の出力を後の処理で用いる場合でも、前の処理と後の処理の間に他の処理が入ることは可能である場合があること、又は間に他の処理が入るように記載されていても前の処理を後の処理の直前に行うよう変更することも可能である場合があることも留意されたい。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」、「続いて、」等を用いて説明したとしても、この順で実施することが必須であることを必ずしも意味するとは限らない。

Claims (9)

  1. 特定の製品分野に属する製品の使用に関するテキスト・データから、不具合を示す述語表現を抽出するための不具合述語表現抽出装置であって、
    突然性を示す連用修飾表現または再現性示す連用修飾表現の少なくとも一方の連用修飾表現を格納する不具合表現検出用の連用修飾表現格納部と、
    前記不具合表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現の近傍に出現する前記テキスト・データ内の述語表現を、不具合を示す述語表現の候補として抽出する不具合述語表現候補抽出部と、
    正常性を示す連用修飾表現を格納する正常表現検出用の連用修飾表現格納部と、
    前記正常表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現の近傍に出現する前記テキスト・データ内の述語表現を、正常を示す述語表現として抽出する正常述語表現抽出部と、
    前記不具合を示す述語表現の候補として抽出された述語表現のリストから、前記正常述語表現抽出部により抽出された述語表現を除いた残りを、前記不具合を示す述語表現として取得する不具合述語表現取得部と
    を含む不具合述語表現抽出装置。
  2. 前記突然性を示す連用修飾表現は、「突然」、「急に」、「いきなり」、「突如」、「突如として」、「突然に」、「不意に」、「唐突」、「たちまち」、「出し抜け」、「咄嗟」、「俄然」、「忽然」、及び「はたと」のうちの少なくとも1つを含み、前記再現性を示す連用修飾表現は、「度々」、「時々」、「頻繁」に、「何度も」、「再三」、及び「しきりに」のうちの少なくとも1つを含み、前記正常性を示す連用修飾表現は、「きちんと」、「しっかり」、「正しく」、「普通に」、「正確に」、「一向に」、「全然」、「ほとんど」、「正常に」、「きっちりと」、「ちゃんと」、「ちょうど」、「整然と」、「きっかり」、「きっかりと」、及び「かっちり」のうちの少なくとも1つを含む、請求項1に記載の不具合述語表現抽出装置。
  3. 前記不具合述語表現候補抽出部は、前記不具合表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現が直接修飾する述語表現を、前記不具合を示す述語表現の候補として抽出し、前記正常述語表現抽出部は、前記正常表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現が直接修飾する述語表現を、前記正常を示す述語表現として抽出する、請求項2に記載の不具合述語表現抽出装置。
  4. 前記不具合述語表現候補抽出部は、前記不具合を示す述語表現の候補として抽出する各述語表現について、前記不具合表現検出用の連用修飾表現格納部に格納されている1以上の連用修飾表現のいずれかの近傍に出現する出現回数をカウントし、前記正常述語表現抽出部は、前記正常を示す述語表現として抽出する各述語表現について、前記正常表現検出用の連用修飾表現格納部に格納されている1以上の連用修飾表現のいずれかの近傍に出現する出現回数をカウントし、前記不具合述語表現取得部は、前記不具合述語表現候補抽出部及び前記正常述語表現抽出部の両抽出部によって同じ述語表現が抽出された場合、該述語表現に対し前記両抽出部がそれぞれカウントした出現回数に基づいて、前記同じ述語表現を、前記不具合を示す述語表現とするか否かを決定する、請求項2に記載の不具合述語表現抽出装置。
  5. 製品の使用に関するテキスト・データから、特定の不具合を示す述語表現と共起する連用修飾表現を抽出し、該連用修飾表現を前記不具合表現検出用の連用修飾表現格納部に登録する、不具合表現検出用の連用修飾表現登録部を更に含む請求項2に記載の不具合述語表現抽出装置。
  6. 前記不具合述語表現取得部により取得された前記不具合を示す述語表現を格納する不具合述語表現格納部と、
    前記特定の製品分野に属する製品の使用に関する解析対象のテキスト・データから、前記不具合述語表現格納部に格納されている不具合を示す述語表現と一致する表現を検出し、検出した前記表現の近傍に出現する前記解析対象のテキスト・データ内の名詞表現を抽出する分析対象抽出部と、
    検出された前記不具合を示す述語表現と一致する前記表現と抽出された前記名詞表現との組を分析対象として、該分析対象を、該分析対象の抽出回数に関連付けて格納する分析対象格納部と、
    を更に含む、請求項2に記載の不具合述語表現抽出装置。
  7. 前記分析対象格納部に格納される前記分析対象ごとにその相関値を算出し、前記分析対象ごとの前記相関値を分析結果として生成する分析結果生成部を更に含む、請求項6に記載の不具合述語表現抽出装置。
  8. 特定の製品分野に属する製品の使用に関するテキスト・データから、不具合を示す述語表現をコンピュータにより抽出するための不具合述語表現抽出方法であって、
    突然性を示す連用修飾表現または再現性示す連用修飾表現の少なくとも一方の連用修飾表現を、前記コンピュータの処理によって実現される不具合表現検出用の連用修飾表現格納部により、不具合表現検出用の連用修飾表現として登録させるステップと、
    前記コンピュータの処理によって実現される不具合述語表現候補抽出部により、前記不具合表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現の近傍に出現する前記テキスト・データ内の述語表現を、不具合を示す述語表現の候補として抽出するステップと、
    正常性を示す連用修飾表現を、前記コンピュータの処理によって実現される正常表現検出用の連用修飾表現格納部により、正常表現検出用の連用修飾表現として登録させるステップと、
    前記コンピュータの処理によって実現される正常述語表現抽出部により、前記正常表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現の近傍に出現する前記テキスト・データ内の述語表現を、正常を示す述語表現として抽出するステップと、
    前記コンピュータの処理によって実現される不具合述語表現取得部により、前記不具合を示す述語表現の候補として抽出された述語表現のリストから、前記正常述語表現抽出部により抽出された述語表現を除いた残りを、前記不具合を示す述語表現として取得するステップと
    を含む不具合述語表現抽出方法。
  9. 特定の製品分野に属する製品の使用に関するテキスト・データから、不具合を示す述語表現をコンピュータにより抽出するための不具合述語表現抽出プログラムであって、前記プログラムは、前記コンピュータを、
    突然性を示す連用修飾表現または再現性示す連用修飾表現の少なくとも一方の連用修飾表現を格納する不具合表現検出用の連用修飾表現格納部と、
    前記不具合表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現の近傍に出現する前記テキスト・データ内の述語表現を、不具合を示す述語表現の候補として抽出する不具合述語表現候補抽出部と、
    正常性を示す連用修飾表現を格納する正常表現検出用の連用修飾表現格納部と、
    前記正常表現検出用の連用修飾表現格納部に格納されている連用修飾表現と一致する表現を前記テキスト・データから検出し、検出した前記表現の近傍に出現する前記テキスト・データ内の述語表現を、正常を示す述語表現として抽出する正常述語表現抽出部と、
    前記不具合を示す述語表現の候補として抽出された述語表現のリストから、前記正常述語表現抽出部により抽出された述語表現を除いた残りを、前記不具合を示す述語表現として取得する不具合述語表現取得部と
    して機能させる不具合述語表現抽出プログラム。
JP2010101663A 2010-04-27 2010-04-27 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム Expired - Fee Related JP5390463B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010101663A JP5390463B2 (ja) 2010-04-27 2010-04-27 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム
US13/087,639 US8484622B2 (en) 2010-04-27 2011-04-15 Defect predicate expression extraction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010101663A JP5390463B2 (ja) 2010-04-27 2010-04-27 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム

Publications (2)

Publication Number Publication Date
JP2011232902A true JP2011232902A (ja) 2011-11-17
JP5390463B2 JP5390463B2 (ja) 2014-01-15

Family

ID=44816871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010101663A Expired - Fee Related JP5390463B2 (ja) 2010-04-27 2010-04-27 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム

Country Status (2)

Country Link
US (1) US8484622B2 (ja)
JP (1) JP5390463B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119449A (ja) * 2019-01-28 2020-08-06 富士ゼロックス株式会社 設計支援システムおよびプログラム
JP2020531957A (ja) * 2017-08-17 2020-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 領域特化字句駆動型プレパーサ
WO2021019817A1 (ja) * 2019-07-29 2021-02-04 株式会社日立製作所 修理リコメンドシステム、修理リコメンド方法、及びプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10084611B2 (en) * 2012-06-29 2018-09-25 Siemens Schweiz Ag Programmable symbol animation pre-processor for building automation graphics
US9710525B2 (en) * 2013-03-15 2017-07-18 Bmc Software, Inc. Adaptive learning of effective troubleshooting patterns
JP6642429B2 (ja) * 2014-07-23 2020-02-05 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236692A (ja) * 2001-02-09 2002-08-23 Fujitsu Ltd 障害情報管理装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2855409B2 (ja) * 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
JP3266586B2 (ja) * 1999-07-07 2002-03-18 インターナショナル・ビジネス・マシーンズ・コーポレーション データ分析システム
US7346492B2 (en) 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
US7272750B2 (en) * 2003-06-30 2007-09-18 Texas Instruments Incorporated Expert system for intelligent testing
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
JP3962382B2 (ja) 2004-02-20 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現抽出装置、表現抽出方法、プログラム及び記録媒体
US7818723B2 (en) * 2004-09-07 2010-10-19 Sap Ag Antipattern detection processing for a multithreaded application
WO2006039566A2 (en) 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
JP4148522B2 (ja) * 2004-11-19 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現検出システム、表現検出方法、及びプログラム
JP2007179276A (ja) * 2005-12-27 2007-07-12 Internatl Business Mach Corp <Ibm> 適合判定方法、装置、およびプログラム
US7792841B2 (en) * 2006-05-30 2010-09-07 Microsoft Corporation Extraction and summarization of sentiment information
US8862591B2 (en) * 2006-08-22 2014-10-14 Twitter, Inc. System and method for evaluating sentiment
US7930302B2 (en) * 2006-11-22 2011-04-19 Intuit Inc. Method and system for analyzing user-generated content
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
JP4338145B2 (ja) * 2007-03-08 2009-10-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 事象の発生を決定付けるキーワードを検索する技術
US7996210B2 (en) 2007-04-24 2011-08-09 The Research Foundation Of The State University Of New York Large-scale sentiment analysis
EP2240874A1 (en) * 2008-01-10 2010-10-20 Yissum Research Development Company of the Hebrew University of Jerusalem, Ltd. Method and system for automatically ranking product reviews according to review helpfulness
US20090192784A1 (en) * 2008-01-24 2009-07-30 International Business Machines Corporation Systems and methods for analyzing electronic documents to discover noncompliance with established norms
US9646078B2 (en) 2008-05-12 2017-05-09 Groupon, Inc. Sentiment extraction from consumer reviews for providing product recommendations
US20090306967A1 (en) 2008-06-09 2009-12-10 J.D. Power And Associates Automatic Sentiment Analysis of Surveys
US8307351B2 (en) * 2009-03-18 2012-11-06 Oracle International Corporation System and method for performing code provenance review in a software due diligence system
US8595707B2 (en) * 2009-12-30 2013-11-26 Microsoft Corporation Processing predicates including pointer information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236692A (ja) * 2001-02-09 2002-08-23 Fujitsu Ltd 障害情報管理装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020531957A (ja) * 2017-08-17 2020-11-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 領域特化字句駆動型プレパーサ
JP7082185B2 (ja) 2017-08-17 2022-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 領域特化字句駆動型プレパーサ
JP2020119449A (ja) * 2019-01-28 2020-08-06 富士ゼロックス株式会社 設計支援システムおよびプログラム
JP7251168B2 (ja) 2019-01-28 2023-04-04 富士フイルムビジネスイノベーション株式会社 設計支援システムおよびプログラム
WO2021019817A1 (ja) * 2019-07-29 2021-02-04 株式会社日立製作所 修理リコメンドシステム、修理リコメンド方法、及びプログラム
JP2021022205A (ja) * 2019-07-29 2021-02-18 株式会社日立製作所 修理リコメンドシステム、修理リコメンド方法、及びプログラム

Also Published As

Publication number Publication date
US20110265065A1 (en) 2011-10-27
US8484622B2 (en) 2013-07-09
JP5390463B2 (ja) 2014-01-15

Similar Documents

Publication Publication Date Title
JP5390463B2 (ja) 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム
EP2664997B1 (en) System and method for resolving named entity coreference
Baron et al. Word frequency and key word statistics in historical corpus linguistics
KR101498331B1 (ko) 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
US8359294B2 (en) Incorrect hyperlink detecting apparatus and method
US20110257839A1 (en) Aviation field service report natural language processing
Zeroual et al. Towards a standard Part of Speech tagset for the Arabic language
KR20100031800A (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US9542383B2 (en) Example-based error detection system for automatic evaluation of writing, method for same, and error detection apparatus for same
Kutuzov et al. Contextualized language models for semantic change detection: lessons learned
Ehsan et al. Towards grammar checker development for Persian language
Singh et al. Review of real-word error detection and correction methods in text documents
Pham et al. Information extraction for Vietnamese real estate advertisements
JP2010271819A (ja) 語句関係抽出装置、語句関係抽出方法及びプログラム
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
KR20190021015A (ko) 패러프레이징을 이용한 감정 사전 구축 및 이를 이용한 텍스트 상의 감정 구조 인식 시스템 및 방법
Quochi et al. A MWE acquisition and lexicon builder web service
Mapa et al. Text normalization in social media by using spell correction and dictionary based approach
Aotaiwe et al. Enhancing Arabic named entity recognition using parallel techniques
Okgetheng et al. Bantu Spell Checker and Corrector using Modified Edit Distance Algorithm (MEDA)
Haripriya et al. Location Based Real-time Sentiment Analysis of Top Trending Event Using Hybrid Approach
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
Thenmozhi et al. An open information extraction for question answering system
Alkhalifa et al. A Dataset for Detecting Humor in Arabic Text
JP5221751B2 (ja) 著者行動推定装置、著者行動推定モデル学習装置、著者行動推定方法、著者行動推定モデル学習方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131010

R150 Certificate of patent or registration of utility model

Ref document number: 5390463

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees