JP2013145429A - 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム - Google Patents

会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム Download PDF

Info

Publication number
JP2013145429A
JP2013145429A JP2012004802A JP2012004802A JP2013145429A JP 2013145429 A JP2013145429 A JP 2013145429A JP 2012004802 A JP2012004802 A JP 2012004802A JP 2012004802 A JP2012004802 A JP 2012004802A JP 2013145429 A JP2013145429 A JP 2013145429A
Authority
JP
Japan
Prior art keywords
corpus
word
value
chat
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012004802A
Other languages
English (en)
Other versions
JP5775466B2 (ja
Inventor
Nobuyasu Ito
伸泰 伊東
Masafumi Nishimura
雅史 西村
Yuto Yamaguchi
祐人 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2012004802A priority Critical patent/JP5775466B2/ja
Priority to DE102012224488A priority patent/DE102012224488A1/de
Priority to CN201310011555.1A priority patent/CN103207886B/zh
Priority to US13/740,473 priority patent/US9002843B2/en
Publication of JP2013145429A publication Critical patent/JP2013145429A/ja
Application granted granted Critical
Publication of JP5775466B2 publication Critical patent/JP5775466B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

【課題】会話から雑談部分を抽出する技術を提供する。
【解決手段】会話から雑談を抽出する雑談抽出システムは、複数の分野の文書を含む第1コーパスと、会話が属する分野の文書のみを含む第2コーパスと、第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第1の所定の閾値以下となる単語を下限対象語として決定する決定部と、第2コーパスに含まれる各単語についてtf-idf値をスコアとして算出し、下限対象単語についてはtf-idf値の代わりに下限とする定数を用いる前記スコア算出部と、会話の内容であるテキストデータから、処理対象の区間を順次切り出す切り出し部と、区間に含まれる単語のスコアの平均値が第2の所定の閾値より大きな区間を雑談部分として抽出する抽出部とを含む。
【選択図】図2

Description

本発明は、会話から雑談部分を抽出するための技術に関し、より詳細には、tf-idfに代表される特徴語の検出技術を改良又は応用して、特定のトピックとして定義・分類することが困難な雑談部分を抽出する雑談抽出システム、方法、およびプログラムに関する。
ビジネス・アナリティクスにおいて、コールセンターや営業店における営業担当者と顧客との電話会話を分析するという需要が高まっている。とりわけ、ある商品の説明や質問といった本来の会話部分ではなく、雑談や世間話といったビジネス・トランザクションとは関係のない部分についての分析に注目が集まっている。これは、そのような雑談部分にこそ、顧客の興味、家族構成、職業といった、ビジネスに利用可能な有用な情報が含まれていると考えられるからである。従って、会話データから雑談部分を抽出し、そこから顧客のプロファイリングをし、カテゴライズして、次の営業活動に繋げることが重要である。
ところで、会話データや文書データからトピックを検出、分類したり、様々なトピックが含まれるデータをトピックごとにセグメント化したりする研究が数多く存在する。例えば非特許文献1は、潜在的ディリクレ配分法を開示する。ここで、潜在的ディリクレ配分法とは、1文書に複数トピックが含まれることを表現できる文書生成過程の確率的なモデルであり、文書を単語の集合と考えて単語単位にトピックを割り当てる手法である。
また非特許文献2及び特許文献1は、時間の経過に伴うトピックの変化を検出するための手法を開示する。そのために非特許文献2では、結合トピックモデル(compound topic model: CTM)を導入すること、また、特許文献1は、混合分布モデルを用いてトピックの生成モデルを表現し、過去のデータほど激しく忘却しながらトピックの生成モデルをオンラインで学習することを開示する。
また非特許文献3は、コミュニティによって表現された新出現トピックをリアルタイムに取得するトピック検出技術を開示する。該トピック検出技術では、単語(term)のライフサイクルが、ソース源の影響力を考慮するエイジング理論に従ってモデル化される。
また、会話内容が対象としている話題を推定する従来技術として特許文献2が存在する。特許文献2は、特定の話題にどの名詞がより多く使用されているかを示す尺度である話題ごとの単語特徴量に基づいて、会話テキストの複数の単語が出現する割合の高い話題を、会話テキストの話題と推定する技術を開示する。
上述した非特許文献1〜3及び特許文献1の従来技術はトピックをモデル化するか、少なくともデータの部分(単語)は1以上の特定トピックから構成され、何らかの潜在的モデルから該部分(単語)が生起したという前提に立っている。そのため、直接のモデル化はもちろんのこと、特定トピックとして定義し、分類すること自体が困難な雑談を検出するために、上記従来技術を利用することはできない。また、当該雑談の性質から、テキスト原稿と、そのテキスト原稿の内容を特定した話題という学習データを必要とする特許文献2の技術の利用も困難である。
なお特許文献3の従来技術の説明において、文書から重要な語句を抽出する技術としてtf-idfモデルが紹介されている。該説明によれば、tf-idfモデルでは、多数の文書に出現する用語は重要度が低く、逆に出現する文書の数が少ない用語ほど重要度が高いという考えの下、対象とする文書が含まれるコーパスの中で各用語につきその用語を含む文書数を求め、その逆数をコーパス内の用語重要度とし、文書内重要度としてのtfとの積tf−idfを用語重要度とする。そこで、雑談部分の抽出においてtf-idfモデルの利用が考えられる。即ち、雑談部分は、本来の会話であるビジネス・トランザクションとは関係のない部分であるといえることからidf値が高くなることが期待され、tf-idfの値をその抽出の指標とすることが考えられる。なおidfの一般的な定義は、対象とする文書が含まれるコーパスの中で対象となる用語を含む文書の割合の逆数の対数である。
特開2005−352613号公報 特開2003−323424号公報 特開2003−50807号公報
Blei,D. M., Ng, A. Y., and Jordan,M. I., "Latent Dirichlet Allocation", Journal of Machine Learning Research, Vol. 3, pp. 993-1022,2003. Knights D., Mozer, M. C., and Nicolov N.,"Topic Drift with Compound Topic Models", AAAI, 242- 245, 2009. Cataldi, M. et al.," Emerging TopicDetection on Twitter based on Temporal and Social Terms Evaluation", MDMKDD ‘10, 2010.
しかしながら、tf-idfの値は比較的高速な処理が可能である一方、単語の特異性抽出が、特に低頻度単語において、不安定であることが知られている。雑談抽出の指標として会話の一定区間内の単語のtf-idfの平均値を利用する場合には、積算効果によって精度は更に劣化する。そこで対象ドメインのコーパスの代わりに、多様なトピックを含む、従ってサイズの大きい一般的なコーパスを利用することで、正確なtf-idfの値を求めることが考えられる。しかし一般的なコーパスの利用は、対象ドメイン特有のトピックであるかそれとも雑談であるかを判断したいという目的にはそぐわない。例えば、対象ドメインが金融である場合、「指し値」という用語は特に珍しい単語ではないが、一般には特異な単語であるため、小さい値であるべきidf値が大きくなり不当に大きな重みが付いてしまう。
また、上記精度の問題をフロアリング技術により解決することも考えられる。即ち、対象ドメインのコーパスにおいてある程度小さなidf値を極端に低い重みにすることで精度を改善することができる。しかしここでも雑談検出という目的に対しては思うような効果は得られない。なぜならば、単純なフロアリング技術の適用では、対象ドメインのコーパスにおいてある程度高頻度で出現するが、雑談としての特徴も兼ね備える単語を識別することができないため、当該単語に対しても極端に低い重みが付けられるからである。
更に、従来のtf-idfモデルでは、文書内の出現頻度(tf)によって文書内の重要度が求められるが、雑談検出という目的において単語の出現頻度は必ずしも重要度を示さない。
本発明は、上記従来技術における問題点に鑑みてなされたものであり、本発明は、tf-idfに代表される特徴語の検出技術を改良又は応用して、雑談部分を抽出するための新たな指標を導出し、該指標に基づく雑談部分の抽出技術を提供することを目的とする。また、本発明は、計算コストのかからない指標により、学習データを必要とすることなく雑談部分の検出を精度よく実施することを実現することができる雑談抽出システム、方法、およびプログラムを提供することを目的とする。
本発明は、上記従来技術の課題を解決するために、以下の特徴を有する雑談抽出システムを提供する。本発明の雑談抽出システムは、複数の分野の文書を含む第1コーパスと、前記会話が属する分野の文書のみを含む第2コーパスと、前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第1の所定の閾値以下となる単語を下限対象語として決定する決定部と、前記第2コーパスに含まれる各単語についてtf−idf値をスコアとして算出するスコア算出部であって、前記下限対象単語についてはtf-idf値の代わりに下限とする定数を用いる前記スコア算出部と、前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出す切り出し部と、切り出した前記区間に含まれる単語の前記スコアの平均値が第2の所定の閾値より大きな区間を雑談部分として抽出する抽出部とを含む。
好ましくは、前記会話は顧客と営業担当者間の会話であり、前記第2コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記スコア算出部は、各単語wのtf値の代わりに、該単語wの前記担当者用コーパスにおける出現頻度SF(w)に対する前記単語wの前記顧客用コーパスにおける出現頻度CF(w)の割合を用いる。
より好ましくは、前記割合は、式(CF(w)+1)/(CF(w)+SF(w))により求められる。
また好ましくは、前記決定部は、更に、前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第3の所定の閾値以上となる単語を上限対象語として決定し、前記スコア算出部は、前記上限対象単語に対してはtf−idf値の代わりに上限とする定数を用いる。
また前記決定部は、前記第2コーパスに含まれる各単語について、第1コーパスにおける相互情報量の値と第2コーパスにおける相互情報量の値とがそれぞれ第4の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、idf値の代わりに相互情報量を利用し、前記下限対象単語については相互情報量の代わりに下限とする定数を用いてもよい。
或いは、前記決定部は、前記第2コーパスに含まれる各単語について、第1コーパスにおけるカイ二乗値と第2コーパスにおけるカイ二乗値とがそれぞれ第5の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、idf値の代わりにカイ二乗値を利用し、前記下限対象単語についてはカイ二乗値の代わりに下限とする定数を用いてもよい。
以上、雑談抽出システムとして本発明を説明した。しかし本発明は、そのような雑談抽出システムによって実施される会話から雑談部分を抽出する雑談抽出方法、及びそのような方法を情報処理装置に実行させる雑談抽出プログラムとして把握することもできる。
本発明によれば、計算コストのかからないtf―idfを雑談検出の指標のベースとしつつ、複数の分野の文書を含む一般的なコーパスと、解析対象の会話が属する分野の文書のみを含む対象ドメインのコーパスの2つのコーパスを用意し、両コーパスにおいてidf値が低くなる場合に限ってフロアリングを実施するので、雑談部分の検出を精度よく実施することが可能となる。更に、雑談部分として識別されうる単語は営業担当者の発話部分よりも顧客の発話部分に出現する頻度のほうが高いという考えの下、その出現頻度比を出現頻度(tf)の代わりに利用すれば、雑談部分の検出をより一層精度よく実施することが可能となる。本発明のその他の効果については、各実施の形態の記載から理解される。
本願発明の実施形態による雑談抽出システム200を実現するのに好適な情報処理装置のハードウェア構成の一例を示す。 本発明の実施形態による雑談抽出システム200の機能ブロック図である。 本発明の実施形態における区間切り出し処理を示す概念図である。 単語ごとの特徴量rf−idfを算出する算出処理の流れを示すフローチャートである。 本発明の実施形態による雑談部分の検出処理の流れを示すフローチャートある。 本発明を適用した雑談検出の実験結果を示す図である。
以下、本願発明を実施するための形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。
図1は、本発明を実施するのに適したコンピュータ50のハードウェア構成の一例を示した図である。コンピュータ50は、バス2に接続されたメインCPU(中央処理装置)1とメインメモリ4を含んでいる。CPU1は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものであり、例えば、インテル社のCore i(商標)シリーズ、Core 2(商標)シリーズ、Atom(商標)シリーズ、Xeon(商標)シリーズ、Pentium(登録商標)シリーズ、Celeron(登録商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ又はSempron(商標)が使用されうる。
またハードディスク装置13、30、及びCD−ROM装置26、29、フレキシブル・ディスク装置20、MO装置28、DVD装置31のようなリムーバブル・ストレージ(記録メディアを交換可能な外部記憶システム)がフレキシブル・ディスクコントローラ19、IDEコントローラ25、SCSIコントローラ27などを経由してバス2へ接続されている。フレキシブル・ディスク、MO、CD−ROM、DVD−ROMのような記憶メディアが、リムーバブル・ストレージに挿入される。
これらの記憶メディアやハードディスク装置13、30、ROM14には、オペレーティング・システムと協働してCPU1に命令を与え、本発明を実施するためのコンピュータ・プログラムのコードを記録することができる。即ち、上記説明した数々の記憶装置には、コンピュータ50にインストールされ、コンピュータ50を本発明の本発明の実施形態による後述する雑談抽出システム200として機能させる雑談抽出プログラムや、後述する一般的なコーパスや対象ドメインのコーパス等のデータを記録することができる。
上記雑談抽出プログラムは、決定モジュールと、スコア算出モジュールと、切り出しモジュールと、抽出モジュールとを含む。これらモジュールは、CPU1に働きかけて、コンピュータ50を、各々後述する決定部225と、スコア算出部230と、切り出し部245と、抽出部250としてそれぞれ機能させる。コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。
コンピュータ50は、キーボード/マウス・コントローラ5を経由して、キーボード6やマウス7のような入力デバイスからの入力を受ける。コンピュータ50は、オーディオコントローラ21を経由して、マイク24からの入力を受け、またスピーカー23から音声を出力する。コンピュータ50は、視覚データをユーザに提示するための表示装置11に、グラフィックスコントローラ8を経由して接続される。コンピュータ50は、ネットワーク・アダプタ18(イーサネット(登録商標)・カードやトークンリング・カード)等を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。
以上の説明により、コンピュータ50は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、又は、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
図2は、本発明の実施形態による会話から雑談部分を抽出する雑談抽出システム200の機能ブロック図である。同図において、雑談抽出システム200は、第1コーパス格納部205と、第2コーパス格納210と、決定部225と、スコア算出部230と、統計辞書格納部235と、会話データ格納部240と、切り出し部245と、抽出部250とを備える。
第1コーパス格納部205は、複数の分野の文書を含む一般的なコーパスを格納する。上述したように、解析対象の会話が属する対象ドメインのコーパスのみを利用してフロアリングを行うと、対象ドメインのコーパスにおいてある程度高頻度で出現するが、雑談としての特徴も兼ね備える単語に対してまでも極端に低い重みが付いてしまう。例えば、PC関連用語や、「好き」等の評価用語は、金融等のビジネス・トランザクションにおいて高頻度で出現し対象ドメインのコーパスにおいて低idf値を示すが、雑談区間を識別するのにも役立つ。その一方で、複数の分野の文書を含む、従って対象ドメインのコーパスに比較して十分な文書数を有する一般的なコーパスでは、上記用語は高頻度に出現するものの、必ずしも低idf値を示さない。そこで本願発明では、一般的なコーパスを用意してこのような特徴をもつ用語をフロアリング対象から外す。その方法の詳細は後述する決定部225及びスコア算出部230に関連して説明する。
複数の分野の文書を含む一般的なコーパスとしては、十分なサイズを有し多様なトピックを含むものが好ましく、例えば、ウィキペディアやtwitter等のインターネット上の情報を利用してよい。なお、ウィキペディアを利用する場合は1用語のエントリー頁がidfを求める際の「1文書」に該当する。また、twitterを利用する場合は1メッセージがidfを求める際の「1文書」に該当する。
第2コーパス格納部210は、解析対象の会話が属する分野の文書のみを含む対象ドメインのコーパスを格納する。対象ドメインのコーパスは、コールセンターや営業店における顧客と営業担当者の会話を、音声認識により又は人手によりテキストへ変換したものであってよい。但し、第2コーパス格納部210は、会話データを会話単位でかつ話者ごとに分けて格納するものとする。即ち、第2コーパス格納部210は、第1話者(顧客)の発話部分の集合である顧客用コーパス215と第2話者(担当者)の発話部分の集合である担当者用コーパス220とからなる。また、各コーパス215、220は、それぞれの発話部分の集合を、単一のデータとしてではなく会話単位で保持する。
なお、顧客用コーパス215と担当者用コーパス220の両方を含む対象ドメインのコーパスにおける「1文書」とは、顧客の一連の発話部分と対応する営業担当者の一連の発話部分からなる1会話を意味する。一方、顧客用コーパス215又は担当者用コーパス220のそれぞれにおける「1文書」とは、顧客の一連の発話部分又は営業担当者の一連の発話部分のみからなる1会話を意味する。
なお、第1コーパス格納部205及び第2コーパス格納部210に格納されるコーパスとは、いずれも、単語列から構成されるテキストデータを指す。日本語をはじめとするいくつかの言語では単語間に空白等、境界を示すマーカーがないため、形態素解析等のプログラムによりあらかじめ単語に分割されているものとする。但し、音声認識の場合一般に結果を単語単位で出力するため、そのような単語抽出の必要はない。またコーパスは品詞、係り受け、そして分野(トピック)といった付加情報が付与されることもあるが、ここではそのような付加情報は必要ない。
決定部225は、第2コーパス格納部210に格納される対象ドメインのコーパスに含まれる各単語wについて、第1コーパス格納部205に格納される一般的なコーパスにおけるidf値IDF(w)と、第2コーパス格納部210に格納される対象ドメインのコーパスにおけるidf値IDF(w)とが、共に所定の閾値θ以下となる単語をフロアリングにおける下限対象語Vsharedとして決定する。上述したように、対象ドメインのコーパスにおいてある程度高頻度で出現するも雑談としての特徴も兼ね備える単語は、一般的なコーパスでは必ずしも低idf値を示さない。そこで本願発明では、対象ドメインのコーパスのみならず一般的なコーパスにおいてもidf値が所定の閾値以下となることを、フロアリングにおいて下限対象語Vsharedとする条件とする。これによって、必要以上のフロアリングが回避される。
なお、各コーパスにおけるidf値は次式により求められる。
Figure 2013145429

上式においてDは各コーパスに含まれる文書数を、DF(w)は各コーパス内の文書の中で単語wを含む文書数を示す。
スコア算出部230は、第2コーパス格納部210に格納される対象ドメインのコーパスに含まれる各単語wについて、tf―idf値をスコアscore(w)として算出する。但しスコア算出部230は、決定部225により下限対象語Vsharedとして決定された単語については、tf―idf値の代わりに下限とする定数μを用いる。単語wについてのスコアscore(w)を数式で表すと以下のようになる。
Figure 2013145429

上式においてDは対象ドメインのコーパスに含まれる文書数を、DF(w)は対象ドメインのコーパス内の文書の中で単語wを含む文書数を、CF(w)は、顧客用コーパス215内の単語wの単語頻度をそれぞれ示す。
より好ましくは、スコア算出部230は、上式においてtf値(CF(w))の代わりに担当者用コーパス220における出現頻度SF(w)に対する顧客用コーパス215における出現頻度CF(w)の割合、即ち出現頻度比RF(w)を用い、新たな特徴量rf―idfを算出する。これは雑談部分として識別されうる単語は営業担当者の発話部分よりも顧客の発話部分に出現する頻度のほうが高いという考えに基づくものである。この場合、単語wについてのスコアscore(w)は次式により表される。
Figure 2013145429
上式において、出現頻度比RF(w)は一例として次式により求めてよい。
Figure 2013145429

なお、出現頻度比RF(w)の値が小さくなる単語間でのスコアscore(w)の差が重要となる場合には、上式の左辺の値の対数を出現頻度比RF(w)としてもよい。スコア算出部230は算出した単語ごとのスコアscore(w)を、統計辞書格納部235に格納する。
会話データ格納部240は、解析対象の会話の内容であるテキストデータを単語単位に区切って格納する。一般に音声認識結果は単語単位に区切られているため、音声認識によりテキストデータを取得する場合は単語の抽出は必要ない。一方、書き起こしによりテキストデータを取得する場合、形態素解析によりテキストデータから単語を抽出するものとする。形態素解析の技術は既知であり、市販のプログラムも存在するため、ここでは説明を省略する。
切り出し部245は、会話データ格納部240からテキストデータを読み出し、所定の長さの窓をずらしながら処理対象の区間を順次切り出す。区間切り出し処理を示す概念図を図3に示す。図3において1つ1つの「−」は発話された単語を示し、上段302は顧客の一連の発話を、下段304は対応する営業担当者の一連の発話を示す。図3に示すように、処理対象の区間は、所定の長さL(図3に示す例ではL=12単語)の窓を1単語ずつずらすことによって順次切り出される(矩形306がi番目の区間とすると、i+1番目の区間は矩形306を1単語ずらした矩形308により切り出される)。
なお、雑談区間をピンポイントで検出するには処理対象の区間は短いほうがよい。しかしその一方で雑談区間があまりに短いと今度は雑談の判定結果が偶然に左右される可能性が高くなってしまう。従って、窓の所定の長さLは、平均発話長の数倍〜10倍程度であることが好ましい。
抽出部250は、統計辞書格納部235に格納される単語ごとのスコアscore(w)を参照して、切り出し部245より切り出された区間に含まれる単語のスコアscore(w)の平均値を算出し、算出した平均値が所定の閾値θより大きな区間を雑談部分として抽出する。抽出部250による判定式を以下に示す。
Figure 2013145429

上式においてSiは切り出された区間に含まれる単語列を示し、|Si|は該単語列に含まれる単語数を示す。
なお、フロアリングにおける下限対象語Vsharedを決定する際に使用する所定の閾値θ、下限対象語Vsharedのスコアscore(w)値μ、及び雑談判定に使用する所定の閾値θは、それぞれ、正解情報である「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定しておくものとする。
ここで検出結果の精度を示す指標として、precision、recall、f―measure(F値)の3つが存在する。recallは検出失敗、precisionは過剰検出を評価する指標であり、これら2つの指標は一方を高めると片方が低下する、相反する精度である。そこでこれら2つの指標のバランスを考慮した指標として、通常次式により定義されるf―measureが存在する。
Figure 2013145429

しかしながらf―measureの最適値は、過剰検出及び検出失敗の両方が許容範囲であるという値であり必ずしも望ましい値であるとはいえない。そこで、アプリケーションごと目的に応じた精度の指標を選択するのが好ましい。例えば検出失敗が少ないことを重視するのであれば、recall>90%という目標を先に設定し、該目標が満たされる範囲内でprecisionが最もよくなる閾値θ1,2や下限対象語Vsharedのスコアscore(w)値μを設定する。
なお、これまではtf-idfの値をベースとして本願発明の雑談抽出技術を説明してきた。しかしながら本願発明の雑談抽出技術は、雑談抽出の指標のベースとして他の特徴語の検出技術、即ち、相互情報量やカイ二乗値を利用することも可能である。相互情報量やカイ二乗値はカテゴリ(特定の文書)と単語の依存度合いを示す尺度であり、その値が大きい単語ほどカテゴリ(特定の文書)に特徴的な単語であるとされる。従って、これらをidf値の代わりとして利用することができる。
即ち、決定部225は、第2コーパス格納部210に格納される対象ドメインのコーパスに含まれる各単語wについて、第1コーパス格納部205に格納される一般的なコーパスにおける相互情報量I(U;D)の値と、第2コーパス格納部210に格納される対象ドメインのコーパスにおける相互情報量I(U;D)の値とが、共に所定の閾値以下となる単語をフロアリングにおける下限対象語Vsharedとして決定する。またスコア算出部230は、idf値の代わりに相互情報量I(U;D)を利用し、下限対象単語Vsharedについては下限とする定数を用いる。
なお、相互情報量I(U;D)は、ある単語tの出現を表す確率変数Uとある文書dの出現を表す確率変数Dを用いて次式により定義される。ここでUは1又は0の値をとり、U=1のとき単語tが出現する事象、U=0のとき単語tが出現しないという事象を表す。同様にDも1又は0の値をとり、D=1のとき文書がdであり、D=0のとき文書がdでないという事象を表す。
Figure 2013145429

上式において添え字t(term)には具体的な単語が、添え字d(document)には具体的な文書が入る。
また、決定部225は、第2コーパス格納部210に格納される対象ドメインのコーパスに含まれる各単語wについて、第1コーパス格納部205に格納される一般的なコーパスにおけるカイ二乗値χ (t;d)の値と、第2コーパス格納部210に格納される対象ドメインのコーパスにおけるカイ二乗値χ (t;d)の値とが、共に所定の閾値以下となる単語をフロアリングにおける下限対象語Vsharedとして決定する。またスコア算出部230は、idf値の代わりにカイ二乗値χ(t;d)を利用し、下限対象単語Vsharedについては下限とする定数を用いる。
なお、カイ二乗値χ(t;d)は、実際の文書数Nijと、ある単語とある文書とが独立であると仮定した場合に期待される文書数Eijとを用いて次式により定義される。ここでi(=e)は1又は0の値をとり、1のとき単語tが出現する事象、0のとき単語tが出現しないという事象を表す。同様に、j(=e)は1又は0の値をとり、1のとき文書がdであり、0のとき文書がdでないという事象を表す。
Figure 2013145429

上式において添え字t(term)には具体的な単語が、添え字d(document)には具体的な文書が入る。
相互情報量やカイ二乗値を利用する場合においても、各種の閾値と下限とする定数は、正解情報である「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定する。
次に図4及び図5を参照しながら、本発明の実施形態による雑談部分の検出処理の流れを説明する。図4は、単語ごとの特徴量rf−idfを算出する算出処理の流れを示すフローチャートである。図5は、雑談部分の検出処理の流れを示すフローチャートある。
図4に示す算出処理はステップ400から開始し、雑談抽出システム200は、対象ドメインのコーパス210にアクセスし、対象ドメインのコーパス210に含まれる各単語wiについて、対象ドメインのコーパス210におけるidf値IDF(w)と、顧客用コーパス215における出現頻度CF(w)と、担当者用コーパス220における出現頻度SF(w)とを求める。続いて雑談抽出システム200は、一般コーパス205にアクセスし、上記各単語wiについて、一般コーパス205におけるidf値IDF(w)を求める(ステップ405)。なおステップ400及びステップ405においてidf値は、数式1に従って算出される。
続いて雑談抽出システム200は、上記各単語wiについて、ステップ400で求めたIDF(wi)とステップ405で求めたIDF(wi)が共に所定の閾値θよりも小さいか否かを判定する(ステップ410)。続いて雑談抽出システム200は、IDF(wi)とIDF(wi)が共に所定の閾値θよりも小さいと判定(ステップ410:YES)した全ての単語wiを下限対象語VSharedとして決定し、下限対象語VSharedの単語wiのスコアscore(wi)(但し、wi∈VShared)に一定値μを設定し、これを統計辞書格納部235に格納する(ステップ415)。
一方、雑談抽出システム200は、IDF(wi)とIDF(wi)の少なくとも一方が所定の閾値θ以上と判定(ステップ410:NO)した単語wiについては、ステップ400で求めた出現頻度CF(w)、SF(w)とを用いて数式4に従って出現頻度比RF(wi)を算出する(ステップ420)。続いて雑談抽出システム200は、下限対象語VSharedを除く各単語について、IDF(wi)とRF(wi)の積をscore(wi)に設定し、これを統計辞書格納部235に格納する(ステップ425)。そして処理は終了する。
図5に示す雑談部分の検出処理はステップ500から開始し、雑談抽出システム200は、雑談部分であるか否かを判定する単位長である区間長L(単語数)を設定し(ステップ500)、区間インデックスPに1を代入する(ステップ505)。続いて雑談抽出システム200は、会話データ格納部240に格納されるテキストデータの先頭から順に、単語wから単語wp+L-1までの単語列(「窓」)を選択する(ステップ510)。続いて雑談抽出システム200は、選択した単語列について統計辞書格納部235を参照し、選択した単語列に含まれる単語のscore(wi)の総計Tscoreを算出し(ステップ515)、更に次式により移動平均値を求める。
Figure 2013145429

上式においてmは移動平均窓の幅である。
続いて雑談抽出システム200は、算出した移動平均値が所定の閾値θよりも大きいか否かを判定する(ステップ520)。Tscoreが所定の閾値θ以下の場合(ステップ520:NO)、雑談抽出システム200は、現在の区間インデックスPで識別される区間が雑談部分でないと判定する(ステップ530)。一方、Tscoreが所定の閾値θよりも大きい場合(ステップ520:YES)、雑談抽出システム200は、現在の区間インデックスPで識別される区間が雑談部分であると判定する(ステップ530)。続いて雑談抽出システム200は、区間インデックスPを1インクリメントし(ステップ535)、会話データ格納部240に格納されるテキストデータから次の単語列が選択可能か否かを判定する(ステップ540)。選択可能である場合(ステップ540:YES)、処理はステップ510に戻る。一方、選択できない場合(ステップ540:NO)、処理は終了する。
実験結果
図6を参照して本発明の実験結果を説明する。なお、実験の条件は次の通りである。
1.一般的なコーパス:約1ヶ月分のtwitter
2.対象ドメインのコーパス:金融会社の営業店における電話対話
- 約1000コール
- 音声認識によりテキストに変換(エラー修正なし)
3.ベースとして利用する特徴語の検出技術:tf―idf
4.比較手法
A.baseline:通常のtf―idfをスコア値として使用
B.+Shared word flooring(1):2種類のコーパスを用いて求めた下限対象語VSharedについては所定の定数μをスコア値とし、それ以外の単語については通常のtf―idfをスコア値として使用
C.(1)+Frequency ratio weighting:上記手法Bに加えて、tf値の代わりに出現頻度比rfを利用するrf―idfをスコア値として使用
図6の表に示す数値は上述したprecision、recall、f―measure(F値)の3種の精度それぞれについての値であり、値の大きいほうが精度がよいことを示す。通常のtf―idfをスコア値とする手法Aと比較すると、本発明を適用した手法B及び手法Cは、いずれの精度に対しても改善された値を示している。特にF値については、新たな特徴量rf−idf値をスコア値とした手法Cにおいて顕著な改善が見られることに注目されたい。
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えることが可能であることが当業者に明らかである。例えば、決定部225は、更に、対象ドメインのコーパスに含まれる各単語について、一般的なコーパスにおけるidf値と対象ドメインのコーパスにおけるidf値とがそれぞれ第3の所定の閾値以上となる単語を上限対象語として決定してよい。そしてスコア算出部230は、上限対象単語に対してはtf―idf値の代わりに上限とする定数を用いてよい。なお、第3の所定の閾値や上限とする定数は、「雑談」タグの付いた少量の開発用データを用い、該データに対して上述した雑談検出方法による検出結果の精度が最もよくなるように予め設定する。従って、そのような変更又は改良を加えた形態も当然に本発明の技術的範囲に含まれる。
なお、特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り任意の順序で実現しうることに留意すべきである。また、前の処理の出力を後の処理で用いる場合でも、前の処理と後の処理の間に他の処理が入ることは可能である場合があること、又は間に他の処理が入るように記載されていても前の処理を後の処理の直前に行うよう変更することも可能である場合があることも留意されたい。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」、「続いて、」等を用いて説明したとしても、この順で実施することが必須であることを必ずしも意味するとは限らない。

Claims (10)

  1. 会話から雑談部分を抽出する雑談抽出システムであって、
    複数の分野の文書を含む第1コーパスと、
    前記会話が属する分野の文書のみを含む第2コーパスと、
    前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第1の所定の閾値以下となる単語を下限対象語として決定する決定部と、
    前記第2コーパスに含まれる各単語についてtf-idf値をスコアとして算出するスコア算出部であって、前記下限対象単語についてはtf-idf値の代わりに下限とする定数を用いる前記スコア算出部と、
    前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出す切り出し部と、
    切り出した前記区間に含まれる単語の前記スコアの平均値が第2の所定の閾値より大きな区間を雑談部分として抽出する抽出部と、
    を含む雑談抽出システム。
  2. 前記会話は顧客と営業担当者間の会話であり、前記第2コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記スコア算出部は、各単語wのTF値の代わりに、該単語wの前記担当者用コーパスにおける出現頻度SF(w)に対する前記単語wの前記顧客用コーパスにおける出現頻度CF(w)の割合を用いる、請求項1に記載の雑談抽出システム。
  3. 前記割合は、式(CF(w)+1)/(CF(w)+SF(w))により求められる、請求項2に記載の雑談抽出システム。
  4. 前記決定部は、更に、前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第3の所定の閾値以上となる単語を上限対象語として決定し、前記スコア算出部は、前記上限対象単語に対してはtf-idf値の代わりに上限とする定数を用いる、請求項1に記載の雑談抽出システム。
  5. 前記決定部は、前記第2コーパスに含まれる各単語について、第1コーパスにおける相互情報量の値と第2コーパスにおける相互情報量の値とがそれぞれ第4の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、idf値の代わりに相互情報量を利用し、前記下限対象単語については相互情報量の代わりに下限とする定数を用いる、請求項1に記載の雑談抽出システム。
  6. 前記決定部は、前記第2コーパスに含まれる各単語について、第1コーパスにおけるカイ二乗値と第2コーパスにおけるカイ二乗値とがそれぞれ第5の所定の閾値以下となる単語を下限対象語として決定し、前記スコア算出部は、idf値の代わりにカイ二乗値を利用し、前記下限対象単語についてはカイ二乗値の代わりに下限とする定数を用いる、請求項1に記載の雑談抽出システム。
  7. コンピュータの演算処理によって会話から雑談部分を抽出する雑談抽出方法であって、前記コンピュータは、複数の分野の文書を含む第1コーパスと、前記会話が属する分野の文書のみを含む第2コーパスとにアクセス可能であり、
    前記コンピュータが、前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第1の所定の閾値以下となる単語を下限対象語として決定するステップと、
    前記コンピュータが、前記第2コーパスに含まれる各単語についてtf-idf値をスコアとして算出し、前記下限対象単語についてはtf-idf値の代わりに下限とする定数を用いて前記スコアを算出して統計辞書格納部に格納するステップと、
    前記コンピュータが、前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出すステップと、
    前記コンピュータが、前記統計辞書格納部に格納した情報を参照して、切り出した前記区間に含まれる単語の前記スコアの平均値を求め、該平均値が第2の所定の閾値より大きな区間を雑談部分として抽出するステップと、
    を含む雑談抽出方法。
  8. 前記会話は顧客と営業担当者間の会話であり、前記第2コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記コンピュータは、各単語wのTF値の代わりに、該単語wの前記担当者用コーパスにおける出現頻度SF(w)に対する前記単語wの前記顧客用コーパスにおける出現頻度CF(w)の割合を用いる、請求項7に記載の雑談抽出方法。
  9. 会話から雑談部分を抽出する雑談抽出プログラムであって、前記プログラムは、複数の分野の文書を含む第1コーパスと、前記会話が属する分野の文書のみを含む第2コーパスとにアクセス可能なコンピュータに、
    前記第2コーパスに含まれる各単語について、第1コーパスにおけるidf値と第2コーパスにおけるidf値とがそれぞれ第1の所定の閾値以下となる単語を下限対象語として決定するステップと、
    前記第2コーパスに含まれる各単語についてtf-idf値をスコアとして算出し、前記下限対象単語についてはtf-idf値の代わりに下限とする定数を用いて前記スコアを算出して統計辞書格納部に格納するステップと、
    前記会話の内容であるテキストデータから、所定の長さの窓をずらしながら処理対象の区間を順次切り出すステップと、
    前記統計辞書格納部に格納した情報を参照して、切り出した前記区間に含まれる単語の前記スコアの平均値を求め、該平均値が第2の所定の閾値より大きな区間を雑談部分として抽出するステップと、
    を実行させる、雑談抽出プログラム。
  10. 前記会話は顧客と営業担当者間の会話であり、前記第2コーパスは、顧客の発話部分の集合である顧客用コーパスと営業担当者の発話部分の集合である担当者用コーパスとからなり、前記コンピュータは、各単語wのTF値の代わりに、該単語wの前記担当者用コーパスにおける出現頻度SF(w)に対する前記単語wの前記顧客用コーパスにおける出現頻度CF(w)の割合を用いる、請求項9に記載の雑談抽出プログラム。
JP2012004802A 2012-01-13 2012-01-13 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム Expired - Fee Related JP5775466B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012004802A JP5775466B2 (ja) 2012-01-13 2012-01-13 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
DE102012224488A DE102012224488A1 (de) 2012-01-13 2012-12-28 System, Verfahren und Programm zur Entnahme eines themenfremden Teils aus einem Gespräch
CN201310011555.1A CN103207886B (zh) 2012-01-13 2013-01-11 用于从对话中提取闲谈部分的闲谈提取系统和方法
US13/740,473 US9002843B2 (en) 2012-01-13 2013-01-14 System and method for extraction of off-topic part from conversation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012004802A JP5775466B2 (ja) 2012-01-13 2012-01-13 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2013145429A true JP2013145429A (ja) 2013-07-25
JP5775466B2 JP5775466B2 (ja) 2015-09-09

Family

ID=48693304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012004802A Expired - Fee Related JP5775466B2 (ja) 2012-01-13 2012-01-13 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム

Country Status (4)

Country Link
US (1) US9002843B2 (ja)
JP (1) JP5775466B2 (ja)
CN (1) CN103207886B (ja)
DE (1) DE102012224488A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019521415A (ja) * 2016-05-17 2019-07-25 グーグル エルエルシー メッセージ分類に基づくメッセージ交換スレッドの自動的拡張

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6107513B2 (ja) * 2013-07-29 2017-04-05 富士通株式会社 情報処理システム、情報処理方法、および情報処理プログラム
US9830386B2 (en) * 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
CN105653598B (zh) * 2015-12-22 2019-07-09 北京奇虎科技有限公司 一种关联新闻的确定方法以及装置
US10733221B2 (en) * 2016-03-30 2020-08-04 Microsoft Technology Licensing, Llc Scalable mining of trending insights from text
US11490232B2 (en) 2016-08-01 2022-11-01 Microsoft Technology Licensing, Llc Location-based conversation identifier
US10003692B2 (en) 2016-10-20 2018-06-19 Avaya Inc. System initiated dialog adjustment
CN106502990A (zh) * 2016-10-27 2017-03-15 广东工业大学 一种微博特征项提取方法和改进tf‑idf归一化方法
TWI603320B (zh) * 2016-12-29 2017-10-21 大仁科技大學 全域對話系統
US10642889B2 (en) * 2017-02-20 2020-05-05 Gong I.O Ltd. Unsupervised automated topic detection, segmentation and labeling of conversations
CN107885722B (zh) * 2017-10-31 2021-05-25 北京奇艺世纪科技有限公司 一种关键词抽取方法和装置
CN108170666A (zh) * 2017-11-29 2018-06-15 同济大学 一种基于tf-idf关键词提取的改进方法
CN110020421A (zh) * 2018-01-10 2019-07-16 北京京东尚科信息技术有限公司 通讯软件的会话信息摘要方法及系统、设备和存储介质
CN109684465B (zh) * 2018-12-30 2022-12-06 广西财经学院 基于项集权值比较的模式挖掘和混合扩展的文本检索方法
GB201821318D0 (en) 2018-12-31 2019-02-13 Transversal Ltd A system and method for identifying newly trending topics in a data stream
GB201821327D0 (en) 2018-12-31 2019-02-13 Transversal Ltd A system and method for discriminating removing boilerplate text in documents comprising structured labelled text elements
CN110427626B (zh) * 2019-07-31 2022-12-09 北京明略软件系统有限公司 关键词的提取方法及装置
CN111476025B (zh) * 2020-02-28 2021-01-08 开普云信息科技股份有限公司 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
KR20230045080A (ko) * 2020-08-07 2023-04-04 주식회사 씨젠 채팅방 관리 서버와 이를 위한 방법 및 이러한 방법을 수행하기 위한 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272699A (ja) * 1998-03-20 1999-10-08 Fujitsu Ltd 文書要約装置およびその方法
JP2008146461A (ja) * 2006-12-12 2008-06-26 Yahoo Japan Corp 会話記録ブログ化装置
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
JP2009193584A (ja) * 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定
US20100125540A1 (en) * 2008-11-14 2010-05-20 Palo Alto Research Center Incorporated System And Method For Providing Robust Topic Identification In Social Indexes
US20100290699A1 (en) * 2009-05-15 2010-11-18 Google Inc. Landmarks from Digital Photo Collections
JP2011070291A (ja) * 2009-09-24 2011-04-07 Nec Biglobe Ltd トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
US20120330968A1 (en) * 2011-06-22 2012-12-27 Rogers Communications Inc. System and method for matching comment data to text data
US20130046771A1 (en) * 2011-08-15 2013-02-21 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4349480B2 (ja) 2001-05-30 2009-10-21 ヒューレット・パッカード・カンパニー 重要句・文抽出方法及び装置
JP3956354B2 (ja) 2002-04-30 2007-08-08 日本放送協会 話題推定装置及び話題推定プログラム
JP4254623B2 (ja) 2004-06-09 2009-04-15 日本電気株式会社 トピック分析方法及びその装置並びにプログラム
US7653627B2 (en) * 2005-05-13 2010-01-26 Microsoft Corporation System and method for utilizing the content of an online conversation to select advertising content and/or other relevant information for display
CN101599071B (zh) * 2009-07-10 2012-04-18 华中科技大学 对话文本主题的自动提取方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272699A (ja) * 1998-03-20 1999-10-08 Fujitsu Ltd 文書要約装置およびその方法
JP2008146461A (ja) * 2006-12-12 2008-06-26 Yahoo Japan Corp 会話記録ブログ化装置
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
JP2009193584A (ja) * 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定
US20100125540A1 (en) * 2008-11-14 2010-05-20 Palo Alto Research Center Incorporated System And Method For Providing Robust Topic Identification In Social Indexes
JP2010118064A (ja) * 2008-11-14 2010-05-27 Palo Alto Research Center Inc コンピュータ実施方法
US20100290699A1 (en) * 2009-05-15 2010-11-18 Google Inc. Landmarks from Digital Photo Collections
JP2011070291A (ja) * 2009-09-24 2011-04-07 Nec Biglobe Ltd トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
US20120330968A1 (en) * 2011-06-22 2012-12-27 Rogers Communications Inc. System and method for matching comment data to text data
US20130046771A1 (en) * 2011-08-15 2013-02-21 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6015023141; 宮村 祐一 他: '情報探索雑談におけるトピック遷移検出' 情報処理学会研究報告 Vol.2008,No.90(2008-NL-187(11)), 20080917, pp.71-76., 社団法人情報処理学会 *
JPN6015023142; 鷹尾 誠一 他: '文字と音声メディアの統合によるビデオ映像の耕造化' 情報処理学会研究報告 Vol.2000,No.69(2000-DBS-122-49), 20000728, pp.377-382., 社団法人情報処理学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019521415A (ja) * 2016-05-17 2019-07-25 グーグル エルエルシー メッセージ分類に基づくメッセージ交換スレッドの自動的拡張
US10769155B2 (en) 2016-05-17 2020-09-08 Google Llc Automatically augmenting message exchange threads based on tone of message
US11222030B2 (en) 2016-05-17 2022-01-11 Google Llc Automatically augmenting message exchange threads based on tone of message
US11762865B2 (en) 2016-05-17 2023-09-19 Google Llc Automatically augmenting message exchange threads based on tone of message

Also Published As

Publication number Publication date
DE102012224488A1 (de) 2013-07-18
US9002843B2 (en) 2015-04-07
JP5775466B2 (ja) 2015-09-09
US20130185308A1 (en) 2013-07-18
CN103207886A (zh) 2013-07-17
CN103207886B (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
JP5775466B2 (ja) 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
Kenyon-Dean et al. Sentiment analysis: It’s complicated!
Mudinas et al. Combining lexicon and learning based approaches for concept-level sentiment analysis
JP4745094B2 (ja) クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
CN108269125B (zh) 评论信息质量评估方法及系统、评论信息处理方法及系统
US20140304814A1 (en) System and methods for automatically detecting deceptive content
KR101540683B1 (ko) 감정어의 극성을 분류하는 방법 및 서버
Matton et al. Into the wild: Transitioning from recognizing mood in clinical interactions to personal conversations for individuals with bipolar disorder
Khedkar et al. Deep learning and ensemble approach for praise or complaint classification
Othman et al. Using NLP approach for opinion types classifier
WO2020177463A1 (zh) 信息处理方法、装置、存储介质和电子设备
Ellouze et al. Automatic profile recognition of authors on social media based on hybrid approach
Meer et al. Rhotics in standard scottish english
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
Kantharuban et al. Quantifying the Dialect Gap and its Correlates Across Languages
JP2013109635A (ja) 単語重要度算出装置とその方法とプログラム
Abe Frequency change patterns across proficiency levels in Japanese EFL learner speech
Drury et al. A contextual classification strategy for polarity analysis of direct quotations from financial news
Giménez et al. Segmenting target audiences: Automatic author profiling using tweets
JP5916016B2 (ja) 同義判定装置、同義学習装置、及びプログラム
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Nath et al. Burnoutwords-detecting burnout for a clinical setting
KR20150077957A (ko) 소셜 데이터의 분석에 따른 감성 기반 인덱스를 이용한 주가 지수의 추세와 전환점 판정 방법 및 그 시스템
JP2018067215A (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Thakur et al. The SAFE miner: A fine grained aspect level approach for resolving the sentiment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140807

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150703

R150 Certificate of patent or registration of utility model

Ref document number: 5775466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees