JP3962382B2 - 表現抽出装置、表現抽出方法、プログラム及び記録媒体 - Google Patents

表現抽出装置、表現抽出方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP3962382B2
JP3962382B2 JP2004045342A JP2004045342A JP3962382B2 JP 3962382 B2 JP3962382 B2 JP 3962382B2 JP 2004045342 A JP2004045342 A JP 2004045342A JP 2004045342 A JP2004045342 A JP 2004045342A JP 3962382 B2 JP3962382 B2 JP 3962382B2
Authority
JP
Japan
Prior art keywords
expression
evaluation
registered
connection
polarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004045342A
Other languages
English (en)
Other versions
JP2005235014A (ja
Inventor
博 金山
哲哉 那須川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2004045342A priority Critical patent/JP3962382B2/ja
Priority to US11/061,335 priority patent/US7475007B2/en
Publication of JP2005235014A publication Critical patent/JP2005235014A/ja
Application granted granted Critical
Publication of JP3962382B2 publication Critical patent/JP3962382B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、表現抽出装置、表現抽出方法、プログラム及び記録媒体に関する。特に本発明は、特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現を抽出する表現抽出装置、表現抽出方法、プログラム及び記録媒体に関する。
近年のインターネットの普及に伴い、消費者等は、商品、サービス、又は企業自体等に対する評価を、ネットワーク上の各種の掲示板や評価サイト等により公開するようになってきている。そして、このようなネットワーク上の情報が、評価対象の評判に大きな影響を与えている。
このような状況の中、ネットワーク上の膨大な情報の中から、特定の商品、サービス、又は企業等の評価対象についての評価が記述されたテキストを取得し、当該テキストを解析して評判を分析する評判分析技術が注目されている(例えば非特許文献1及び2参照。)。
評判分析技術においては、肯定的な評価を示す表現及び/又は否定的な評価を示す表現である評価表現をテキスト中から抽出し、抽出結果に基づいて評判を分析する。従来においては、抽出対象となる評価表現の辞書は、人手により作成されるのが一般的である。しかし、評価表現は多種多様であり、また評価対象の属する分野に依存して異なるため、各分野における様々な評価表現を含む辞書を人手により作成するのは困難である。
そこで、テキスト中から評価表現を抽出し、その評価表現が肯定的又は否定的な表現のいずれであるかを判別して辞書に登録する技術が提案されている。
非特許文献3は、例えば5段階評価が付加された映画のレビューのような、評価対象に対してテキスト全体として肯定的か否定的かが明示されているデータを用い、評価値と相関の強い語を学習する方法を開示する。
非特許文献4は、インターネット上の検索エンジンを用いて、インターネット上の文書中で評価表現の近傍にpoor又はexcellentが存在する度合から、評価表現の否定度又は肯定度を測定する方法を開示する。
非特許文献5は、文章中でand、or、またはbutの接続詞で結ばれた並列句で共起している語について、肯定的な評価を正極性とし、否定的な評価を負極正とする極性を学習する方法を開示する。すなわち、and又はorで接続された語は同一の極性、butで接続された語は逆の極性であるとして、語の極性を学習する。
Tetsuya Nasukawa, et. al, "Sentiment Analysis: Capturing Favorability Using Natural Language Processing", The Second International Conferences on Knowledge Capture (K-CAP 2003), 2003年10月 Jeonghee Yi, et. al, "Sentiment Analyzer: Extracting of Sentiments towards a Given Topic using NLP Techniques", The Third IEEE International Conference on Data Mining (ICDM '03), 2003年11月 Bo Pang, et. al, "Thumbs up? Sentiment classification using Machine Learning Techniques.", In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), p. 79-86, 2002 Peter Turney, "Thumbs up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews." , In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics(ACL), p. 417-424, 2002 Vasileios Hatzivassiloglou, et al, "Predicting the semantic orientation of adjectives.", In Proceedings of the 35th Annual Meeting of the ACL and the 8th Conference of the European Chapter of the ACL, p. 174-181, 1997
非特許文献においては、文書全体として評価対象に対し肯定的又は否定的かが明示されている必要があり、適用可能な文書が限られてしまう。非特許文献においては、テキスト中に含まれる各評価表現について検索エンジンによる検索を行う必要があり処理効率が低く、また、検索対象となった文書の内容に依存するため絶対的な評価結果を得るのが困難である。非特許文献においては、極性を判断する対象となる評価表現が並列句として記載されている必要があり、限定されるという問題がある。
そこで本発明は、上記の課題を解決することのできる表現抽出装置、表現抽出方法、プログラム及び記録媒体を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
本発明の第1の形態によると、特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現を抽出する表現抽出装置であって、肯定的な評価を正極性とし、否定的な評価を負極性とする極性が予め定められた評価表現を、登録表現として登録する登録表現記憶部と、前記テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出する表現抽出部と、前記複数の評価表現のうち、前記登録表現記憶部に登録されている前記登録表現を含む前記評価表現を検出する登録表現検出部と、前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と同一の極性であると判断する極性判断部とを備える表現抽出装置、及び、当該表現抽出装置に関する表現抽出方法、及びプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、評価対象に対する評価を示す評価表現をテキストから抽出し、適切に極性を判断することができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態に係る表現抽出装置10の構成を示す。表現抽出装置10は、例えばインターネット等から特定の評価対象についての評価が記述されたテキストを取得する。そして、当該テキストから当該評価対象に対する評価を示す表現である評価表現を抽出して、当該評価表現の極性を判断する。このようなテキスト中においては、評価表現は連続して出現することが多く、肯定的な評価表現の前後には肯定的な評価表現が並び、否定的な評価表現の前後には否定的な評価表現が並ぶことが多いという傾向がある。表現抽出装置10は、この傾向を利用して、肯定的な評価表現に続く一連の評価表現を肯定的な評価表現と判断し、否定的な評価表現に続く一連の評価表現を否定的な評価表現と判断する。
また、肯定的な評価表現と否定的な評価表現とが並ぶ場合には、その間に「ただ」、「しかし」、「が、」、「けど、」等の逆接の接続表現が入ることが多い。そこで、表現抽出装置10は、2つの評価表現の間に逆接の接続表現が入っていた場合には、2つの評価表現を反対の極性であると判断する。
表現抽出装置10は、登録表現記憶部100と、表現抽出部110と、登録表現検出部120と、極性判断部130と、確信度記憶部135と、極性決定部140と、登録表現追加部150と、登録表現削除部155と、繰返し処理部160と、評価表示部170とを備える。登録表現記憶部100は、極性が予め定められた評価表現を、登録表現として登録する。本実施形態において、評価表現の極性は、肯定的な評価の場合に正極性とし、否定的な評価の場合に負極性と定められる。
表現抽出部110は、インターネットやファイル等から特定の評価対象についての評価が記述されたテキストを取得する。ここで、評価対象は、例えば商品、サービス、又は企業等の、消費者や格付け機関等により評価される対象である。そして、表現抽出部110は、テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出して登録表現検出部120へ出力する。
登録表現検出部120は、表現抽出部110から入力された複数の評価表現のうち、登録表現記憶部100に登録されている登録表現を含む評価表現を検出する。そして、登録表現検出部120は、検出された評価表現に含まれる登録表現とその極性を、表現抽出部110から入力された評価表現及び接続表現と共に極性判断部130へ出力する。
極性判断部130は、表現抽出部110により抽出された評価表現及び接続表現と、登録表現を含む評価表現及び当該登録表現の極性とに基づいて、各評価表現の極性を判断する。ここで、ある評価表現がテキスト中の複数箇所に出現する場合、極性判断部130は、それぞれの箇所における当該評価表現の極性を個別に判断する。
確信度記憶部135は、接続表現の種類毎に、当該接続表現が順接又は逆接の接続表現である度合を示す確信度を予め記憶する。この確信度は、接続表現を予め表現抽出装置10に登録する登録者等により予め定められて、確信度記憶部135に登録される。極性判断部130は、テキストに含まれる接続表現のそれぞれについての確信度を確信度記憶部135から取得し、当該確信度に更に基づいて評価表現の極性を判断してもよい。
極性決定部140は、テキスト中の複数箇所に出現する評価表現のそれぞれの箇所における極性を極性判断部130から入力し、これらの極性に基づいて当該評価表現の極性を決定する。登録表現追加部150は、極性判断部130により極性を判断され、極性決定部140により極性を決定された評価表現を、新たな登録表現として登録表現記憶部100に追加する。登録表現削除部155は、極性判断部130により極性を判断され、極性決定部140により極性を決定された評価表現の極性が、登録表現記憶部100に登録された、当該評価表現に対応する登録表現の極性と矛盾する場合に、登録表現記憶部100から当該登録表現を削除する。これにより登録表現削除部155は、登録表現記憶部100内の登録表現の極性を正しく保つことができる。
繰返し処理部160は、登録表現追加部150により新たな登録表現が追加された登録表現記憶部100に基づいて、登録表現検出部120、極性判断部130、極性決定部140、登録表現追加部150、及び登録表現削除部155による処理を再度行わせる。これにより表現抽出装置10は、既に登録されていた登録表現を用いた処理の結果極性を判断・決定することができなかった評価表現についても、新たに追加された登録表現を用いて極性を判断・決定することができる。
評価表示部170は、極性決定部140により極性が決定された複数の評価表現を登録表現記憶部100から読み出して、複数の評価表現の極性に基づいて評価対象についての評価を表示する。表現抽出装置10は、評価表示部170を備えることにより、入力されたテキストに基づいて、評価対象の評判を分析する評判分析装置として機能する。
図2は、本実施形態に係る表現抽出装置10の動作フローを示す。
まず、表現抽出部110は、特定の評価対象についての評価が自然言語により記述されたテキストを取得し、テキストから複数の評価表現及び接続表現とを抽出する(ステップS200)。より具体的には、表現抽出部110は、テキストを構文解析し、当該評価対象に対する評価を示す文、句、又は用言等を、評価表現として抽出する。
次に、繰返し処理部160は、テキストから抽出した複数の評価表現のそれぞれについての極性の判断が収束するまで、S220からS260の処理を繰り返させる(S210、S270)。
繰返し処理において、登録表現検出部120は、複数の評価表現のうち、登録表現記憶部100に登録されている登録表現を含む評価表現を検出する(S220)。
次に、極性判断部130は、各評価表現の極性を判断する(S230)。より具体的には、極性判断部130は、登録表現を含む評価表現に対して順接の接続表現により接続されている評価表現と、当該評価表現に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現とを、登録表現と同一の極性であると判断する。
すなわち例えば、登録表現を含む評価表現A、順接の接続表現B、評価表現C、評価表現D、評価表現E、及び評価表現Fがこの順で並んでいる場合に、極性判断部130は、まず、評価表現Aに対して順接の接続表現Bにより接続されている評価表現Cを、当該登録表現と同一の極性であると判断する。また極性判断部130は、評価表現Cに対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現である評価表現D、E、及びFを、当該登録表現と同一の極性であると判断する。
また、極性判断部130は、登録表現を含む評価表現に対して逆接の接続表現により接続されている評価表現と、当該評価表現に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現とを、登録表現と逆の極性であると判断する。
すなわち例えば、登録表現を含む評価表現A、逆接の接続表現B、評価表現C、評価表現D、評価表現E、及び評価表現Fがこの順で並んでいる場合に、極性判断部130は、まず、評価表現Aに対して逆接の接続表現Bにより接続されている評価表現Cを、当該登録表現と逆の極性であると判断する。また極性判断部130は、評価表現Cに対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現である評価表現D、E、及びFを、当該登録表現と逆の極性であると判断する。
極性判断部130は、上記に示した判断を、登録表現を含む評価表現に対してテキスト後方に位置する評価表現に対して行うと共に、登録表現を含む評価表現に対してテキスト前方に位置する評価表現に対して行ってよい。また、極性判断部130は、評価表現Aに対して接続表現Bにより接続される評価表現Cの極性をまず判断し、次の繰返しにおいて、登録表現として登録表現記憶部100に登録された評価表現Cに隣接する評価表現Dの極性を判断し、更に次の繰返しにおいて、登録表現として登録表現記憶部100に登録された評価表現Dに隣接する評価表現Eの極性を判断してもよい。この場合、極性判断部130は、順接又は逆接の接続表現により接続されていない一連の評価表現のそれぞれを繰返し毎に順次選択し、同一の極性であると順次判断することができる。
なお、極性判断部130は、S230の処理において、評価表現がいずれの登録表現を含まないことを条件として、上記した極性の判断を行ってもよい。これにより極性判断部130は、一度極性を判断して登録表現記憶部100に登録された登録表現について再度判断するのを防ぎ、複数の評価対象のそれぞれについての極性の判断が収束するのを早めることができる。
また、極性判断部130は、S230の処理において、登録表現を含む評価表現に対して順接又は逆接の接続表現により接続されている評価表現と、当該評価表現に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現との極性の確信度を、当該順接の接続表現の確信度に基づき更に判断してもよい。
すなわち例えば、接続表現の一例である接続詞「しかし」は、順接の接続となることは無い。このため、確信度記憶部135は、接続詞「しかし」が逆接の接続表現である確信度として、高い値を保持しておく。一方、接続表現の一例である接続助詞「が、」は、順接の接続詞となることも有り得る。例えば、「良いとの評判を聞いていたが、実際は悪かった。」における「が、」は逆接の接続助詞であるが、「良いとの評判を聞いていたが、やはり評判どおりであった。」は順接の接続助詞である。したがって確信度記憶部135は、接続助詞「が、」が逆接の接続表現である確信度として、「しかし」と比較し低い値を保持しておく。これにより極性判断部130は、正極性の評価表現に対し「しかし」により接続された評価表現が負極性である確信度を、正極性の評価表現に対し「が、」により接続された評価表現が負極性である確信度と比較し高いと判断することができる。
次に、極性決定部140は、テキスト中の複数箇所に出現する評価表現のそれぞれの箇所における極性に基づいて、当該評価表現の極性を決定する(S240)。より具体的には、極性決定部140は、テキスト中の複数箇所に出現する評価表現のそれぞれの箇所における極性が、予め定められた割合以上同一の極性であると判断された場合に、当該用言の極性を、予め定められた割合以上同一であった極性に決定する。
また、極性決定部140は、テキスト中の複数箇所に出現する一の評価表現の極性を、それぞれの箇所における極性の確信度に更に基づいて決定してもよい。すなわち例えば、極性決定部140は、テキスト中の複数箇所に出現する評価表現のそれぞれの箇所における極性を、当該極性の確信度により重み付けし、重み付けした極性に基づいて当該評価表現の極性を決定する。例えばテキスト中に、「A(正極性)だがBだ。」という文と、「C(負極性)だ。しかしBだ。」という表現がある場合に、極性判断部130は、前者の文に基づいてBは負極性(確信度低)と判断し、後者の文に基づいてBは正極性(確信度高)と判断する。この結果、極性決定部140は、これらの確信度に基づいて、Bは正極性であると決定することができる。
次に、登録表現削除部155は、極性判断部130により極性を判断された評価表現が、登録表現として登録表現記憶部100に登録されており、かつ、当該評価表現及び当該登録表現の極性が異なる場合に、当該登録表現を登録表現記憶部100から削除する(S250)。ここで登録表現削除部155は、テキスト中の複数箇所に出現する一の評価表現のそれぞれの箇所における極性のうち、予め定められた割合以上の箇所における当該一の評価表現の極性が、登録表現記憶部100に登録された当該一の評価表現に含まれる登録表現の極性と異なると判断された場合に、当該登録表現を登録表現記憶部100から削除してもよい。なお、この割合は、極性決定部140が極性の決定に用いる割合と同一でもよく、異なっていてもよい。
次に、登録表現追加部150は、極性判断部130により極性を判断され、極性決定部140により極性を決定された評価表現を、新たな登録表現として登録表現記憶部100に追加する(S260)。
繰返し処理部160は、複数の評価表現のそれぞれについての極性の判断が収束するまで、S220からS260の処理を繰り返させる(S210、S270)。すなわち、繰返し処理部160は、上記のS220からS260の処理により、いずれかの評価表現の極性が新たに決定され、又は、極性が変更された場合には、S220からS260の処理を再度行わせる。
そして、評価表示部170は、極性決定部140により極性が決定され、登録表現追加部150により登録表現記憶部100に登録された複数の評価表現とその極性を登録表現記憶部100から読み出して、複数の評価表現の極性に基づいて評価対象についての評価を表示する(S280)。
以上に示した表現抽出装置10によれば、ある評価表現の前後には同一極性の評価表現が並ぶことが多いという傾向、及び、肯定的な評価表現と否定的な評価表現とが並ぶ場合には逆接の接続表現が入ることが多いという傾向を利用して、テキスト中に含まれる複数の評価表現のそれぞれの極性を適切に決定し、登録表現として登録することができる。この結果、表現抽出装置10は、効果的に抽出して登録した登録表現に基づいて、より適切に評判分析を行うことができる。
図3は、本実施形態に係る表現抽出装置10による処理対象となる文章の一例を示す。本実施形態に係る表現抽出装置10は、評価表現として、文単位及び句単位の表現を抽出して処理を行う。
(1)文単位の処理
図3の文章1及び文章2は、文単位の処理の一例を示す。文単位の処理において、表現抽出部110は、テキストに含まれる複数の文のそれぞれの少なくとも一部を複数の評価表現のそれぞれとして抽出する。また、複数の文のそれぞれに付加された接続詞を接続表現として抽出する。
例えば、図3の文章1は、「対応がとても良かった。」、「解決した。」、及び「とても満足している。」の3つの文300a〜cを含む。表現抽出部110は、これらの複数の文のそれぞれの動詞句である評価表現310a〜cを抽出する。また、文300a〜cは、順接又は逆接のいずれの接続詞によっても接続されていないため、表現抽出部110は、文章1について接続詞を抽出しない。
ここで、評価表現310cが正極性の登録表現として登録表現記憶部100に登録されていた場合、極性判断部130は、登録表現を含む評価表現310cを含む文300cに対して、順接又は逆接のいずれの接続詞によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の文300a〜bに含まれる評価表現310a〜bを、評価表現310cと同一の極性である正極性であると判断する。同様に、極性判断部130は、負極性の登録表現を含む評価表現を含む文に対して、順接又は逆接のいずれの接続詞によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の文に含まれる評価表現を、当該登録表現と同一の極性である負極性であると判断する。この結果、極性判断部130は、「良かった」及び「解決した」の2つの評価表現を、肯定的な評価表現であると正しく判断することができる。
また、図3の文章2は、「電話がつながりにくい。」、「対応が悪かった。」、及び「しかし、解決した。」の3つの文300d〜fを含む。表現抽出部110は、これらの複数の文のそれぞれの動詞句である評価表現310d〜fを抽出する。また、文300eと文300fとは、逆接の接続詞である接続表現320aにより接続されているため、表現抽出部110は、接続表現320aを抽出する。
ここで、評価表現310fが正極性の登録表現として登録表現記憶部100に登録されていた場合、極性判断部130は、登録表現を含む評価表現310fを含む文300fに対して逆接の接続表現320aにより接続されている文300eに含まれる評価表現310eと、当該文300eに対して順接及び逆接のいずれの接続詞によっても接続されておらず、互いに順接及び逆接のいずれの接続詞によっても接続されていない一連の文300dに含まれる評価表現310dとを、登録表現との極性であると判断する。同様に、極性判断部130は、登録表現を含む評価表現を含む文に対して順接の接続詞により接続されている文に含まれる評価表現と、当該文に対して順接及び逆接のいずれの接続詞によっても接続されておらず、互いに順接及び逆接のいずれの接続詞によっても接続されていない一連の文に含まれる評価表現とを、登録表現と同一の極性であると判断する。この結果、極性判断部130は、「つながりにくい」及び「悪かった」の2つの評価表現を、否定的な評価表現であると正しく判断することができる。
ここで、テキストに含まれる文が2以上の句を含む場合、表現抽出部110は、テキストに含まれる複数の文のそれぞれの主要素となる句を複数の評価表現のそれぞれとして抽出してよい。ここで文の主要素となる句とは、複数の句を含む文において、その文で表現する内容の主要部分となる句であり、日本語においては文の最後に位置する句である。
そして、極性判断部130は、登録表現を含む評価表現を主要素とする文に対して順接又は逆接の接続表現により接続されている文の主要素となる評価表現と、当該評価表現を主要素とする文に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の文の主要素の評価表現とを、登録表現と同一又は逆の極性であると判断してよい。
また、表現抽出部110は、テキストに含まれる複数の文のそれぞれのうち、予め定められた除外条件を満たさない文の少なくとも一部を、複数の評価表現のそれぞれとして抽出してもよい。この除外条件としては、例えば、表現抽出部110による構文解析の結果、当該文が疑問文であると判断したこと、又は、当該文が意思を表す文であると判断したこと等であってよい。これにより、表現抽出部110は、客観的な評価を記述していない文を、評価表現の抽出対象から除外することができる。
(2)句単位の処理
図3の文章3は、句単位の処理の一例を示す。句単位の処理において、本実施形態に係る表現抽出部110は、テキストに含まれる文を構成する複数の句のそれぞれについて主辞となる用言を複数の評価表現として抽出する。また、複数の句の間に付加された、接続詞や接続助詞等の接続表現を抽出する。
例えば、図3の文章3は、句「担当者の対応は良かった」の主辞となる用言「良かった」と、用言「満足だ」と、句「音声ガイダンス入力の段階が多すぎて」の用言「多すぎた」と、用言「面倒くさかった」との4つの評価表現310g〜jを含む。表現抽出部110は、文章3に示した文から、評価表現310g〜jと、接続助詞である接続表現320bとを抽出する。
ここで、評価表現310hが正極性の登録表現として登録表現記憶部100に登録されていた場合、極性判断部130は、登録表現である評価表現310hを含む句に対して逆接の接続表現320bにより接続されている句の評価表現310iと、評価表現310iを含む句に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の句の評価表現310jとを、登録表現と逆の極性であると判断する。同様に極性判断部130は、登録表現を含む句に対して順接の接続表現により接続されている句の用言と、当該句に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の句の用言とを、登録表現と同一の極性であると判断する。この結果、極性判断部130は、用言「多すぎた」及び用言「面倒くさかった」の2つの評価表現を、否定的な評価表現であると正しく判断することができる。
また、極性判断部130は、登録表現である評価表現310hを含む句に対して順接又は逆接のいずれの接続表現によっても接続されていない一連の句の用言である評価表現310gを、評価表現310hと同一の極性であると判断する。この結果、極性判断部130は、用言「良かった」を肯定的な評価表現であると正しく判断することができる。
図4は、本実施形態に係る登録表現記憶部100に予め登録された登録表現の一例を示す。本実施形態に係る登録表現記憶部100は、評価表現の極性を判断するための種となる登録表現として、文脈や専門用語に依存せずに評価の極性を明らかに定められる表現を、当該表現の極性に対応付けて予め記録する。本実施形態に係る登録表現記憶部100は、正極性(図中「〇」により示す)の表現「満足だ」と、負極性(図中「×」により示す)の表現「不満だ」を予め登録する。
図5は、本実施形態に係る極性判断部130により極性を判断された評価表現の一例を示す。本図においては、デジタルカメラについての評価が記述されたテキスト中から抽出された評価表現を例として示す。テキスト中の評価表現の極性は、図2のS220、S230の処理により登録表現記憶部100に登録された登録表現を用いて判断され、S240の処理により決定される。
例えば、評価表現「思う」はテキスト中において125(=91+34)回出現している。そして、極性判断部130は、そのうち91回を正極性、34回を負極性であると判断している。同様に、極性判断部130は、評価表現「する」について78回を正極性、39回を負極性であると判断している。
また、表現抽出部110は、複数の評価表現の少なくとも1つとして、評価項目と、当該評価項目に対する評価を示す表現とを含む組を更に抽出してもよい。すなわち例えば、表現抽出部110は、「参考(に)」という評価項目と、「参考(に)」に対する評価を示す表現「なる」を含む組である「参考に→なる」を評価表現として更に抽出してもよい。同様に表現抽出部110は、「手間(が)」という評価項目と、「手間(が)」に対する評価を示す表現「掛かる」を含む組である「手間が→掛かる」を評価表現として更に抽出してもよい。
より具体的には、表現抽出部110は、複数の評価表現の少なくとも1つとして、評価項目を示す名詞と、当該評価項目に対する評価を示す用言と、当該名詞及び当該用言を対応付ける格助詞との組を抽出してもよい。すなわち例えば、表現抽出部110は、評価項目を示す名詞「電池」と、「電池」に対する評価を示す用言「長持ちする」と、「電池」及び「長持ちする」を対応付ける格助詞「が」の組を抽出し、評価表現「電池が長持ちする」としてもよい。
表現抽出装置10は、このような組からなる評価表現についても同様に極性の判断及び決定を行う。これにより、例えば「大きい」のように複数箇所で極性が一致しないような、肯定的にも否定的にも用いられる用言についても、「効果が大きい」は肯定的、「ノイズが大きい」は否定的というように、格を含めた形で極性を決定することができる。
以上において、極性判断部130及び極性決定部140は、まず用言のみで極性を判断/決定し、用言のみで極性を定めることができない用言について格を含めた形で極性を定めることができるか否かを判断/決定してもよい。
より具体的には、極性決定部140は、テキスト中の複数箇所に出現する一の用言のそれぞれの箇所における極性が、例えば90%等の予め定められた割合以上同一の極性と判断された場合に、当該用言の極性を、当該割合以上同一の極性と判断された極性に決定する。例えば、極性決定部140は、本図に示した「軽い」が90%以上正極性と判断されたため、正極性であると決定する。この際極性決定部140は、テキスト中において当該用言が例えば10回等の予め定められた回数以上出現したことを条件として、極性を決定してもよい。
一方、極性決定部140は、テキスト中の複数箇所に出現する一の用言のそれぞれの箇所における極性が、予め定められた割合以上同一の極性であると判断されなかった場合に、当該用言及び当該用言を修飾する名詞を組とした新たな評価表現の抽出を表現抽出部110に指示する。これを受けて、表現抽出部110は、「参考に→なる」、「手間が→掛かる」、又は「電池が→長持ちする」等の新たな評価表現を抽出する。次に、極性判断部130は、これらの新たな評価表現の極性を判断する。そして、極性決定部140は、テキスト中の複数箇所に出現する新たな評価表現が、例えば90%以上等の予め定められた割合以上同一の極性であると判断された場合に、当該新たな評価表現の極性を、予め定められた割合以上同一であった極性に決定する。例えば、極性決定部140は、本図に示した「参考に→なる」及び「電池が→長持ちする」が90%以上正極性と判断されたため、正極性であると決定する。また、「手間が→掛かる」が90%以上負極性と判断されたため、負極性であると決定する。この際極性決定部140は、テキスト中において当該用言が例えば3回等の予め定められた回数以上出現したことを条件として、極性を決定してもよい。この回数は、用言単体の出現回数の下限値より小さい値であってもよい。
以上の処理の結果、登録表現追加部150は、「参考に→なる」、「軽い」、「手間が→掛かる」、及び「電池が→長持ちする」の各評価表現を、登録表現として登録表現記憶部100に登録することができる。
図6は、本実施形態に係る登録表現記憶部100に登録された登録表現の一例を示す。S220からS260の処理を繰り返した結果、表現抽出装置10は、登録表現「満足だ」及び「不満だ」に加え、例えば図示したように様々な登録表現及び当該登録表現の極性を記録することができる。
図7は、本実施形態に係る評価表示部170により表示される評価結果700の一例を示す。評価表示部170は、極性決定部140により極性が決定され、登録表現追加部150により登録表現記憶部100に登録された複数の評価表現とその極性を登録表現記憶部100から読み出して、複数の評価表現の極性に基づいて評価対象についての評価を分析する。そして、当該評価対象についての評価の分析結果を表示する。
評価表示部170は、図2のS200からS270の処理により登録表現記憶部100に登録された登録表現と、評価対象についての評価が記述されたテキストとを入力し、評価対象についての評判分析を行う。ここで、評価表示部170は、登録表現を抽出したテキストについて評判分析を行ってもよく、これに代えて新たに入力したテキストについて評判分析を行ってもよい。
本実施形態に係る評価表示部170は、評価対象についての複数の評価項目のそれぞれについて、当該評価項目についての肯定的評価(好評)の数及び/又は割合と、否定的評価(不評)の数及び/又は割合とを対応付けて表示する。また、評価表示部170は、各評価項目について、肯定的評価又は否定的評価の数及び/又は割合に加え、肯定的評価又は否定的評価を示す評価表現を表示する。
ここで、評価表示部170は、名詞、格助詞、及び用言の組からなる評価表現における名詞の部分を、評価結果700として表示する評価項目として選択する。すなわち例えば、評価表示部170は、評価表現「電池が→長持ちする」の「電池」を評価項目として選択する。
また、評価表示部170は、動詞句や用言からなる評価表現に対応する主語を、評価結果700として表示する評価項目として選択してもよい。すなわち例えば、図3の文章1における文300a「対応がとても良かった。」に関して、評価表現310aに対応する主語である「対応」を、評価結果700として表示する評価項目として選択してもよい。
以上に示した表現抽出装置10によれば、特定の評価対象に関するテキストをインターネット等から取得して、評価表現を人手によらず抽出して登録表現記憶部100に登録することができる。そして、表現抽出装置10は、登録した評価表現に基づいて評判分析を行うことができる。これにより、評価表現の辞書を作成するコストを低減することができ、評判分析を効率良く行うことができる。
図8は、本実施形態に係るコンピュータ900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ900は、ホスト・コントローラ1082により相互に接続されるCPU1000、RAM1020、グラフィック・コントローラ1075、及び表示装置1080を有するCPU周辺部と、入出力コントローラ1084によりホスト・コントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスク・ドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホスト・コントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィック・コントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ1075は、CPU1000等がRAM1020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィック・コントローラ1075は、CPU1000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ1084は、ホスト・コントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、CD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ1040は、コンピュータ900内のCPU1000が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020を介してハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスク・ドライブ1050、及び入出力チップ1070の比較的低速な入出力装置とが接続される。ROM1010は、コンピュータ900が起動時に実行するブート・プログラムや、コンピュータ900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、RAM1020を介してハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク・ドライブ1050や、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続する。
RAM1020を介してハードディスクドライブ1040に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM1020を介してコンピュータ900内のハードディスクドライブ1040にインストールされ、CPU1000において実行される。
コンピュータ900にインストールされ、コンピュータ900を表現抽出装置10として機能させるプログラムは、登録表現記憶部100を管理する登録表現管理モジュールと、表現抽出モジュールと、登録表現検出モジュールと、極性判断モジュールと、確信度記憶部135を管理する確信度管理モジュールと、極性決定モジュールと、登録表現追加モジュールと、登録表現削除モジュールと、繰返し処理モジュールと、評価表示モジュールとを備える。これらのプログラム又はモジュールは、CPU1000等に働きかけて、コンピュータ900を、登録表現記憶部100と、表現抽出部110と、登録表現検出部120と、極性判断部130と、確信度記憶部135と、極性決定部140と、登録表現追加部150と、登録表現削除部155と、繰返し処理部160と、評価表示部170としてそれぞれ機能させる。
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
以上に説明した実施形態によれば、以下の各項目に示す表現抽出装置、表現抽出方法、プログラム及び記録媒体が実現される。
(項目1)特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現を抽出する表現抽出装置であって、肯定的な評価を正極性とし、否定的な評価を負極性とする極性が予め定められた評価表現を、登録表現として登録する登録表現記憶部と、前記テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出する表現抽出部と、前記複数の評価表現のうち、前記登録表現記憶部に登録されている前記登録表現を含む前記評価表現を検出する登録表現検出部と、前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と同一の極性であると判断する極性判断部とを備える表現抽出装置。
(項目2)前記極性判断部は、前記登録表現を含む前記評価表現に対して逆接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と逆の極性であると判断する項目1記載の表現抽出装置。
(項目3)前記極性判断部により極性を判断された前記評価表現を、新たな前記登録表現として前記登録表現記憶部に追加する登録表現追加部を更に備える項目1記載の表現抽出装置。
(項目4)前記登録表現追加部により前記新たな登録表現が追加された前記登録表現記憶部に基づいて、前記登録表現検出部及び前記極性判断部による処理を再度行わせる繰返し処理部を更に備える項目3記載の表現抽出装置。
(項目5)前記極性判断部により極性を判断された前記評価表現が、前記登録表現として前記登録表現記憶部に登録されており、かつ、当該評価表現及び当該登録表現の極性が異なる場合に、当該登録表現を前記登録表現記憶部から削除する登録表現削除部を更に備える項目1記載の表現抽出装置。
(項目6)前記登録表現削除部は、前記テキスト中の複数箇所に出現する一の前記評価表現のそれぞれの箇所における極性のうち、予め定められた割合以上の箇所における当該一の評価表現の極性が、前記登録表現記憶部に登録された当該一の評価表現に含まれる前記登録表現の極性と異なると判断された場合に、当該登録表現を前記登録表現記憶部から削除する項目5記載の表現抽出装置。
(項目7)前記表現抽出部は、前記テキストに含まれる複数の文のそれぞれの少なくとも一部を前記複数の評価表現のそれぞれとして抽出し、前記複数の文のそれぞれに付加された接続詞を前記接続表現として抽出し、前記極性判断部は、前記登録表現を含む前記評価表現を含む文に対して順接の前記接続詞により接続されている前記文に含まれる前記評価表現と、当該文に対して順接及び逆接のいずれの前記接続詞によっても接続されておらず、互いに順接及び逆接のいずれの前記接続詞によっても接続されていない一連の前記文に含まれる前記評価表現とを、前記登録表現と同一の極性であると判断する項目1記載の表現抽出装置。
(項目8)前記表現抽出部は、前記テキストに含まれる複数の文のそれぞれのうち、予め定められた除外条件を満たさない文の少なくとも一部を、前記複数の評価表現のそれぞれとして抽出する項目7記載の表現抽出装置。
(項目9)前記表現抽出部は、前記テキストに含まれる複数の文のそれぞれの主要素となる句を前記複数の評価表現のそれぞれとして抽出すると共に、前記複数の文のそれぞれに付加された接続詞を前記接続表現として抽出し、前記極性判断部は、前記登録表現を含む前記評価表現を主要素とする文に対して順接の前記接続表現により接続されている文の主要素となる前記評価表現と、当該評価表現を主要素とする文に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の文の主要素の前記評価表現とを、前記登録表現と同一の極性であると判断する項目7記載の表現抽出装置。
(項目10)前記表現抽出部は、前記テキストに含まれる文を構成する複数の句のそれぞれについて主辞となる用言を前記複数の評価表現として抽出すると共に、前記複数の句の間に付加された前記接続表現を抽出し、前記極性判断部は、前記登録表現を含む前記句に対して順接の前記接続表現により接続されている前記句の前記用言と、当該句に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記句の前記用言とを、前記登録表現と同一の極性であると判断する項目1記載の表現抽出装置。
(項目11)前記表現抽出部は、前記複数の句の間に付加された接続助詞を前記接続表現として抽出し、前記極性判断部は、前記登録表現を含む前記句に対して順接の前記接続助詞により接続されている前記句の前記用言と、当該句に対して順接及び逆接のいずれの前記接続助詞によっても接続されておらず、互いに順接及び逆接のいずれの前記接続助詞によっても接続されていない一連の前記句の前記用言とを、前記登録表現と同一の極性であると判断する項目10記載の表現抽出装置。
(項目12)前記表現抽出部は、前記複数の評価表現の少なくとも1つとして、評価項目と、当該評価項目に対する評価を示す表現を含む組を更に抽出する項目10記載の表現抽出装置。
(項目13)前記表現抽出部は、前記複数の評価表現の少なくとも1つとして、前記評価項目を示す名詞と、当該評価項目に対する評価を示す用言と、当該名詞及び当該用言を対応付ける格助詞との組を抽出する項目12記載の表現抽出装置。
(項目14)前記テキスト中の複数箇所に出現する前記用言のそれぞれの箇所における極性が、予め定められた割合以上同一の極性であると判断された場合に、当該用言の極性を、前記予め定められた割合以上同一であった極性に決定する極性決定部を更に備える項目12記載の表現抽出装置。
(項目15)前記テキスト中の複数箇所に出現する一の用言のそれぞれの箇所における極性が、予め定められた割合以上同一の極性であると判断されなかった場合に、前記表現抽出部は、当該用言及び当該用言を修飾する名詞を組とした新たな前記評価表現を更に抽出し、前記極性判断部は、前記新たな評価表現の極性を判断し、前記極性決定部は、前記テキスト中の複数箇所に出現する前記新たな評価表現が、前記予め定められた割合以上同一の極性であると判断された場合に、当該新たな評価表現の極性を、前記予め定められた割合以上同一であった極性に決定する項目10記載の表現抽出装置。
(項目16)前記接続表現の種類毎に、当該接続表現が順接又は逆接の前記接続表現である度合を示す確信度を予め記憶する確信度記憶部を更に備え、前記極性判断部は、前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現との極性の確信度を、当該順接の接続表現の前記確信度に基づき更に判断し、更に、前記テキスト中の複数箇所に出現する一の前記評価表現の極性を、それぞれの箇所における極性の確信度に基づいて決定する極性決定部を備える項目1記載の表現抽出装置。
(項目17)前記複数の評価表現の極性に基づいて、前記評価対象についての評価を表示する評価表示部を更に備える項目1記載の表現抽出装置。
(項目18)特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現をコンピュータにより抽出する表現抽出方法であって、肯定的な評価を正極性とし、否定的な評価を負極性とする極性が予め定められた評価表現を、登録表現として登録する登録表現記憶段階と、前記テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出する表現抽出段階と、前記複数の評価表現のうち、前記登録表現記憶段階により登録されている前記登録表現を含む前記評価表現を検出する登録表現検出段階と、前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と同一の極性であると判断する極性判断段階とを備える表現抽出方法。
(項目19)特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現をコンピュータにより抽出するプログラムであって、当該プログラムは、前記コンピュータを、肯定的な評価を正極性とし、否定的な評価を負極性とする極性が予め定められた評価表現を、登録表現として登録する登録表現記憶部と、前記テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出する表現抽出部と、前記複数の評価表現のうち、前記登録表現記憶部に登録されている前記登録表現を含む前記評価表現を検出する登録表現検出部と、前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と同一の極性であると判断する極性判断部として機能させるプログラム。
(項目20)項目19記載のプログラムを記録した、コンピュータにより読み取り可能な記録媒体。
本発明の実施形態に係る表現抽出装置10の構成を示す。 本発明の実施形態に係る表現抽出装置10の動作フローを示す。 本発明の実施形態に係る表現抽出装置10による処理対象となる文章の一例を示す。 本発明の実施形態に係る登録表現記憶部100に予め登録された登録表現の一例を示す。 本発明の実施形態に係る極性判断部130により極性を判断される評価表現の一例を示す。 本発明の実施形態に係る登録表現記憶部100に登録された登録表現の一例を示す。 本発明の実施形態に係る評価表示部170により表示される評価結果700の一例を示す。 本発明の実施形態に係るコンピュータ900のハードウェア構成の一例を示す。
符号の説明
10 表現抽出装置
100 登録表現記憶部
110 表現抽出部
120 登録表現検出部
130 極性判断部
135 確信度記憶部
140 極性決定部
150 登録表現追加部
155 登録表現削除部
160 繰返し処理部
170 評価表示部
300a〜f 文
310a〜j 評価表現
320a〜b 接続表現
700 評価結果
900 コンピュータ
1000 CPU
1010 ROM
1020 RAM
1030 通信インターフェイス
1040 ハードディスクドライブ
1050 フレキシブルディスク・ドライブ
1060 CD−ROMドライブ
1070 入出力チップ
1075 グラフィック・コントローラ
1080 表示装置
1082 ホスト・コントローラ
1084 入出力コントローラ
1090 フレキシブルディスク
1095 CD−ROM

Claims (20)

  1. 特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現を抽出する表現抽出装置であって、
    肯定的な評価を正極性とし、否定的な評価を負極性とする極性が予め定められた評価表現を、登録表現として登録する登録表現記憶部と、
    前記テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出する表現抽出部と、
    前記複数の評価表現のうち、前記登録表現記憶部に登録されている前記登録表現を含む前記評価表現を検出する登録表現検出部と、
    前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と同一の極性であると判断する極性判断部と
    を備える表現抽出装置。
  2. 前記極性判断部は、前記登録表現を含む前記評価表現に対して逆接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と逆の極性であると判断する請求項1記載の表現抽出装置。
  3. 前記極性判断部により極性を判断された前記評価表現を、新たな前記登録表現として前記登録表現記憶部に追加する登録表現追加部を更に備える請求項1記載の表現抽出装置。
  4. 前記登録表現追加部により前記新たな登録表現が追加された前記登録表現記憶部に基づいて、前記登録表現検出部及び前記極性判断部による処理を再度行わせる繰返し処理部を更に備える請求項3記載の表現抽出装置。
  5. 前記極性判断部により極性を判断された前記評価表現が、前記登録表現として前記登録表現記憶部に登録されており、かつ、当該評価表現及び当該登録表現の極性が異なる場合に、当該登録表現を前記登録表現記憶部から削除する登録表現削除部を更に備える請求項1記載の表現抽出装置。
  6. 前記登録表現削除部は、前記テキスト中の複数箇所に出現する一の前記評価表現のそれぞれの箇所における極性のうち、予め定められた割合以上の箇所における当該一の評価表現の極性が、前記登録表現記憶部に登録された当該一の評価表現に含まれる前記登録表現の極性と異なると判断された場合に、当該登録表現を前記登録表現記憶部から削除する請求項5記載の表現抽出装置。
  7. 前記表現抽出部は、前記テキストに含まれる複数の文のそれぞれの少なくとも一部を前記複数の評価表現のそれぞれとして抽出し、前記複数の文のそれぞれに付加された接続詞を前記接続表現として抽出し、
    前記極性判断部は、前記登録表現を含む前記評価表現を含む文に対して順接の前記接続詞により接続されている前記文に含まれる前記評価表現と、当該文に対して順接及び逆接のいずれの前記接続詞によっても接続されておらず、互いに順接及び逆接のいずれの前記接続詞によっても接続されていない一連の前記文に含まれる前記評価表現とを、前記登録表現と同一の極性であると判断する
    請求項1記載の表現抽出装置。
  8. 前記表現抽出部は、前記テキストに含まれる複数の文のそれぞれのうち、予め定められた除外条件を満たさない文の少なくとも一部を、前記複数の評価表現のそれぞれとして抽出する請求項7記載の表現抽出装置。
  9. 前記表現抽出部は、前記テキストに含まれる複数の文のそれぞれの主要素となる句を前記複数の評価表現のそれぞれとして抽出すると共に、前記複数の文のそれぞれに付加された接続詞を前記接続表現として抽出し、
    前記極性判断部は、前記登録表現を含む前記評価表現を主要素とする文に対して順接の前記接続表現により接続されている文の主要素となる前記評価表現と、当該評価表現を主要素とする文に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の文の主要素の前記評価表現とを、前記登録表現と同一の極性であると判断する
    請求項7記載の表現抽出装置。
  10. 前記表現抽出部は、前記テキストに含まれる文を構成する複数の句のそれぞれについて主辞となる用言を前記複数の評価表現として抽出すると共に、前記複数の句の間に付加された前記接続表現を抽出し、
    前記極性判断部は、前記登録表現を含む前記句に対して順接の前記接続表現により接続されている前記句の前記用言と、当該句に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記句の前記用言とを、前記登録表現と同一の極性であると判断する
    請求項1記載の表現抽出装置。
  11. 前記表現抽出部は、前記複数の句の間に付加された接続助詞を前記接続表現として抽出し、
    前記極性判断部は、前記登録表現を含む前記句に対して順接の前記接続助詞により接続されている前記句の前記用言と、当該句に対して順接及び逆接のいずれの前記接続助詞によっても接続されておらず、互いに順接及び逆接のいずれの前記接続助詞によっても接続されていない一連の前記句の前記用言とを、前記登録表現と同一の極性であると判断する
    請求項10記載の表現抽出装置。
  12. 前記表現抽出部は、前記複数の評価表現の少なくとも1つとして、評価項目と、当該評価項目に対する評価を示す表現を含む組を更に抽出する請求項10記載の表現抽出装置。
  13. 前記表現抽出部は、前記複数の評価表現の少なくとも1つとして、前記評価項目を示す名詞と、当該評価項目に対する評価を示す用言と、当該名詞及び当該用言を対応付ける格助詞との組を抽出する請求項12記載の表現抽出装置。
  14. 前記テキスト中の複数箇所に出現する前記用言のそれぞれの箇所における極性が、予め定められた割合以上同一の極性であると判断された場合に、当該用言の極性を、前記予め定められた割合以上同一であった極性に決定する極性決定部を更に備える請求項12記載の表現抽出装置。
  15. 前記テキスト中の複数箇所に出現する一の用言のそれぞれの箇所における極性が、予め定められた割合以上同一の極性であると判断されなかった場合に、前記表現抽出部は、当該用言及び当該用言を修飾する名詞を組とした新たな前記評価表現を更に抽出し、
    前記極性判断部は、前記新たな評価表現の極性を判断し、
    前記極性決定部は、前記テキスト中の複数箇所に出現する前記新たな評価表現が、前記予め定められた割合以上同一の極性であると判断された場合に、当該新たな評価表現の極性を、前記予め定められた割合以上同一であった極性に決定する
    請求項10記載の表現抽出装置。
  16. 前記接続表現の種類毎に、当該接続表現が順接又は逆接の前記接続表現である度合を示す確信度を予め記憶する確信度記憶部を更に備え、
    前記極性判断部は、前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現との極性の確信度を、当該順接の接続表現の前記確信度に基づき更に判断し、
    更に、前記テキスト中の複数箇所に出現する一の前記評価表現の極性を、それぞれの箇所における極性の確信度に基づいて決定する極性決定部を備える
    請求項1記載の表現抽出装置。
  17. 前記複数の評価表現の極性に基づいて、前記評価対象についての評価を表示する評価表示部を更に備える請求項1記載の表現抽出装置。
  18. 特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現をコンピュータにより抽出する表現抽出方法であって、
    肯定的な評価を正極性とし、否定的な評価を負極性とする極性が予め定められた評価表現を、前記コンピュータの処理によって実現される登録表現記憶部により、登録表現として登録させる登録表現記憶段階と、
    前記テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを、前記コンピュータの処理によって実現される表現抽出部により、抽出させる表現抽出段階と、
    前記複数の評価表現のうち、前記登録表現記憶部により登録されている前記登録表現を含む前記評価表現を、前記コンピュータの処理によって実現される登録表現検出部により、検出させる登録表現検出段階と、
    前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と同一の極性であると、前記コンピュータの処理によって実現される極性判断部により、判断させる極性判断段階と
    を備える表現抽出方法。
  19. 特定の評価対象についての評価が記述されたテキストから、当該評価対象に対する評価を示す表現である評価表現をコンピュータにより抽出するプログラムであって、
    当該プログラムは、前記コンピュータを、
    肯定的な評価を正極性とし、否定的な評価を負極性とする極性が予め定められた評価表現を、登録表現として登録する登録表現記憶部と、
    前記テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出する表現抽出部と、
    前記複数の評価表現のうち、前記登録表現記憶部に登録されている前記登録表現を含む前記評価表現を検出する登録表現検出部と、
    前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と同一の極性であると判断する極性判断部と
    して機能させるプログラム。
  20. 前記極性判断部により極性を判断された前記評価表現が、前記登録表現として前記登録表現記憶部に登録されており、かつ、当該評価表現及び当該登録表現の極性が異なる場合に、当該登録表現を前記登録表現記憶部から削除する登録表現削除部を更に備える請求項19記載のプログラム。
JP2004045342A 2004-02-20 2004-02-20 表現抽出装置、表現抽出方法、プログラム及び記録媒体 Expired - Fee Related JP3962382B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004045342A JP3962382B2 (ja) 2004-02-20 2004-02-20 表現抽出装置、表現抽出方法、プログラム及び記録媒体
US11/061,335 US7475007B2 (en) 2004-02-20 2005-02-18 Expression extraction device, expression extraction method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004045342A JP3962382B2 (ja) 2004-02-20 2004-02-20 表現抽出装置、表現抽出方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2005235014A JP2005235014A (ja) 2005-09-02
JP3962382B2 true JP3962382B2 (ja) 2007-08-22

Family

ID=34858104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004045342A Expired - Fee Related JP3962382B2 (ja) 2004-02-20 2004-02-20 表現抽出装置、表現抽出方法、プログラム及び記録媒体

Country Status (2)

Country Link
US (1) US7475007B2 (ja)
JP (1) JP3962382B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478582B2 (en) 2009-02-04 2013-07-02 Kddi Corporation Server for automatically scoring opinion conveyed by text message containing pictorial-symbols

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7428496B1 (en) * 2001-04-24 2008-09-23 Amazon.Com, Inc. Creating an incentive to author useful item reviews
JP4148522B2 (ja) * 2004-11-19 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現検出システム、表現検出方法、及びプログラム
US20070250319A1 (en) * 2006-04-11 2007-10-25 Denso Corporation Song feature quantity computation device and song retrieval system
US7792841B2 (en) * 2006-05-30 2010-09-07 Microsoft Corporation Extraction and summarization of sentiment information
JP4322887B2 (ja) * 2006-06-01 2009-09-02 株式会社東芝 スレッド順位付け装置及び方法
US7831928B1 (en) 2006-06-22 2010-11-09 Digg, Inc. Content visualization
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
US7930302B2 (en) * 2006-11-22 2011-04-19 Intuit Inc. Method and system for analyzing user-generated content
CN101641693A (zh) * 2006-12-18 2010-02-03 日本电气株式会社 极性估计系统、信息传输系统、极性估计方法、极性估计程序以及评价极性估计程序
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US8108255B1 (en) 2007-09-27 2012-01-31 Amazon Technologies, Inc. Methods and systems for obtaining reviews for items lacking reviews
US8001003B1 (en) * 2007-09-28 2011-08-16 Amazon Technologies, Inc. Methods and systems for searching for and identifying data repository deficits
US20090248484A1 (en) * 2008-03-28 2009-10-01 Microsoft Corporation Automatic customization and rendering of ads based on detected features in a web page
US20100125484A1 (en) * 2008-11-14 2010-05-20 Microsoft Corporation Review summaries for the most relevant features
JP5390463B2 (ja) 2010-04-27 2014-01-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 不具合を示す述語表現を抽出するための不具合述語表現抽出装置、不具合述語表現抽出方法及び不具合述語表現抽出プログラム
US8396820B1 (en) * 2010-04-28 2013-03-12 Douglas Rennie Framework for generating sentiment data for electronic content
US8725495B2 (en) * 2011-04-08 2014-05-13 Xerox Corporation Systems, methods and devices for generating an adjective sentiment dictionary for social media sentiment analysis
CN104272301B (zh) * 2012-04-25 2018-01-23 国际商业机器公司 用于提取一部分文本的方法、计算机可读介质和计算机
JP5698188B2 (ja) * 2012-06-13 2015-04-08 日本電信電話株式会社 評価表現辞書作成支援装置、方法、及びプログラム
US9396179B2 (en) * 2012-08-30 2016-07-19 Xerox Corporation Methods and systems for acquiring user related information using natural language processing techniques
US9483463B2 (en) * 2012-09-10 2016-11-01 Xerox Corporation Method and system for motif extraction in electronic documents
US10521807B2 (en) 2013-09-05 2019-12-31 TSG Technologies, LLC Methods and systems for determining a risk of an emotional response of an audience
WO2016056043A1 (ja) * 2014-10-06 2016-04-14 株式会社日立製作所 文章検索方法および文章検索システム
JP6476988B2 (ja) * 2015-02-23 2019-03-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN106919551B (zh) * 2015-12-28 2020-08-18 株式会社理光 一种情感词极性的分析方法、装置及设备
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11526674B2 (en) * 2019-03-01 2022-12-13 Rakuten Group, Inc. Sentence extraction system, sentence extraction method, and information storage medium
CN112686034B (zh) * 2021-03-22 2021-07-13 华南师范大学 一种情感分类方法、装置及设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08255172A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6233546B1 (en) * 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
JP3135235B2 (ja) * 1999-02-26 2001-02-13 株式会社エイ・ティ・アール音声翻訳通信研究所 照応解析装置
US6332143B1 (en) * 1999-08-11 2001-12-18 Roedy Black Publishing Inc. System for connotative analysis of discourse
US7136877B2 (en) * 2000-12-20 2006-11-14 Yanon Volcani System and method for determining and controlling the impact of text
US7289949B2 (en) * 2001-10-09 2007-10-30 Right Now Technologies, Inc. Method for routing electronic correspondence based on the level and type of emotion contained therein
US20040054534A1 (en) * 2002-09-13 2004-03-18 Junqua Jean-Claude Client-server voice customization
US7299228B2 (en) * 2003-12-11 2007-11-20 Microsoft Corporation Learning and using generalized string patterns for information extraction
EP1667031A3 (en) * 2004-12-02 2009-01-14 NEC Corporation HTML-e-mail creation system
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478582B2 (en) 2009-02-04 2013-07-02 Kddi Corporation Server for automatically scoring opinion conveyed by text message containing pictorial-symbols

Also Published As

Publication number Publication date
US7475007B2 (en) 2009-01-06
US20050187932A1 (en) 2005-08-25
JP2005235014A (ja) 2005-09-02

Similar Documents

Publication Publication Date Title
JP3962382B2 (ja) 表現抽出装置、表現抽出方法、プログラム及び記録媒体
JP4148522B2 (ja) 表現検出システム、表現検出方法、及びプログラム
Huang et al. The factual inconsistency problem in abstractive text summarization: A survey
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
Chinsha et al. A syntactic approach for aspect based opinion mining
US10019515B2 (en) Attribute-based contexts for sentiment-topic pairs
Jin et al. A novel lexicalized HMM-based learning framework for web opinion mining
US8200477B2 (en) Method and system for extracting opinions from text documents
US10275454B2 (en) Identifying salient terms for passage justification in a question answering system
US9613093B2 (en) Using question answering (QA) systems to identify answers and evidence of different medium types
US20160224663A1 (en) Context based passage retreival and scoring in a question answering system
Azab et al. Representing movie characters in dialogues
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
Papay et al. Quotation detection and classification with a corpus-agnostic model
CN106663123B (zh) 以评论为中心的新闻阅读器
Sharma et al. Memebusters at SemEval-2020 task 8: Feature fusion model for sentiment analysis on memes using transfer learning
Gref et al. A study on the ambiguity in human annotation of german oral history interviews for perceived emotion recognition and sentiment analysis
Shi et al. A supervised fine-grained sentiment analysis system for online reviews
WO2024030314A1 (en) Search results within segmented communication session content
CN116975275A (zh) 多语种文本分类模型训练方法、装置和计算机设备
CN112597295B (zh) 摘要提取方法、装置、计算机设备和存储介质
Llorens et al. Data-driven approach based on semantic roles for recognizing temporal expressions and events in Chinese
Sheeba et al. Improved sentiment classification from meeting transcripts
Guda et al. Rules based event extraction from natural language text
Chowdhury et al. Identifying keyword predictors in lecture video screen text

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070320

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070515

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070518

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees