JP2013105436A - 対話モデル構築装置、方法、及びプログラム - Google Patents
対話モデル構築装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013105436A JP2013105436A JP2011250787A JP2011250787A JP2013105436A JP 2013105436 A JP2013105436 A JP 2013105436A JP 2011250787 A JP2011250787 A JP 2011250787A JP 2011250787 A JP2011250787 A JP 2011250787A JP 2013105436 A JP2013105436 A JP 2013105436A
- Authority
- JP
- Japan
- Prior art keywords
- data
- dialogue
- category
- headword
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】部分集合抽出部12は、2回のやりとりの対話データを複数取得する。辞書データ20から見出し抽出部14が見出し語を抽出し、カテゴリ抽出部16がカテゴリ情報を抽出して、見出し語・カテゴリ情報のペアを作成する。部分集合抽出部12は、取得した対話データ内の各単語に見出し語・カテゴリ情報に基づいてカテゴリ情報を付与し、入力されたキーワードを単語及びカテゴリ情報に含む対話データを部分集合として抽出する。対話モデル学習部18は、部分集合を用いて、学習過程において2回のやりとりから、内容が近い発話データをクラスタリングすることで2回を超えるやりとりを構成しながらHMMを学習し、学習したHMMを対話モデルとして出力する。
【選択図】図1
Description
本実施の形態に係る対話モデル構築装置10は、CPUと、RAMと、後述する対話モデル構築処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成することができる。このコンピュータは、機能的には、図1に示すように、部分集合抽出部12と、見出し抽出部14と、カテゴリ抽出部16と、対話モデル学習部18とを含んだ構成で表すことができる。なお、見出し抽出部14及びカテゴリ抽出部16が本発明の作成手段の一例である。
・辞書データ20のデータを取得し、見出し抽出部14で抽出された全ての見出し語を形態素解析辞書に登録する。
・上記ステップと同時に、辞書データ20の見出し語のカテゴリ情報からカテゴリネットワークを作る。辞書データ20の各見出し語には通例いくつかのカテゴリ情報が付与されている。そのカテゴリ情報からネットワークを形成する。カテゴリ情報が有向グラフの構造を持っている場合には、この構造を用いてネットワークを形成することができる。そして、各見出し語について直接付与されたカテゴリと、その上位カテゴリとを取得し、見出し語・カテゴリのペアを作成して、例えば表形式で保持しておく。上位カテゴリはいくつ用いてもよいが、ここでは一つ上のカテゴリを付与する。上位カテゴリの取得の仕方は、まず、直接付与されたカテゴリのそれぞれについて、グラフの上位に位置する主要カテゴリまでの最短パスを求める。そして、そのパスを直接付与されたカテゴリからn個上に辿ることで上位カテゴリの集合を得る。nは1以上の整数で、最大で最上位のカテゴリまでのホップ数となる。nは辞書データ20の見出し語によって異なる。
次に、本実施の形態の対話モデル構築装置10の作用について説明する。マイクロブログサービスのようなインターネット上の発話データを収集し、その中から返信関係にある2回のやりとりの対話データを抽出して、対話データDB24に格納した後、対話モデル構築装置10において、図2に示す対話モデル構築処理ルーチンが実行される。
次に、本実施の形態の有効性を評価するための評価実験について説明する。本評価実験では、Food−Set及びSports−Setの部分集合から、無限HMMを学習した。α、β、及びγは全て0.01を用いた。特徴量Wのbag−of−unigramsには、2回のやりとりの対話データにおける最頻の5000単語を特徴量として用いた。ギブスサンプリングのイタレーション数は1000とした。これは、各発話データはそれぞれ1000回再配置されたことを表す。
・テストデータにおける発話データのそれぞれについて、全ての可能な順列(順番)を列挙する。
・それぞれの順番について、対話モデルによって対数尤度を計算する。
・最も対数尤度が高かった順番をそのシステムが最も適切と判断した順番とする。
・上記適切と判断した順番と、もともとのテストデータでの順番(正解)とを比較し、下記(6)式によりケンドールのタウを得る。
表3に評価結果を示す。表中のFood−Set LL及びFood−Set tauは、Food−Setのテストデータに対する、マイナスをかけた対数尤度(Negative Log Likelihood;LL)、及びケンドールタウの値を表す。Sports−Setについても同様である。なお、表において、*と+はそれぞれ2回やりとりモデル及びオープンモデルに対し統計的に有意(p<0.01)に値が良いことを示す。
学習された対話モデルがどのようなものかを分析するために、2回やりとりモデルが3回以上やりとりデータをどのようにデコードするか調べた。デコードとは、3回以上やりとりデータを2回やりとりモデルが読み込み、どの状態からどの発話データが出力されたかを推定する処理のことである。この分析のため、まず、2回やりとりモデルを用いて、3回以上やりとりデータをViterbiアルゴリズムでデコードし、最尤パスを得た。そして、その得られたパスをネットワーク図として描画した。図6はそのネットワーク図である。ここでは、15回以上生起したパスしか表示しておらず、そのようなパスと関係のない状態、及び最終状態は読み易さのため割愛している。矢印の横の数値はそのパスを通った割合である。図6に示すネットワーク図を見ると、明らかに2回を超えるやりとりが2回やりとりモデルに含まれていることが分かり、2回やりとりデータから2回を超えるやりとりがモデル化できていることが見て取れる。
・11:家庭での状態→6:社会的な応答→7:コメント
・29:状態→31:感情的な応答→18:好意的な応答→7:コメント
・26:食事の報告→13:質問→27:食事の詳細→7:コメント
これらのやりとりは2回を超えるやりとりであり、本実施の形態の対話モデル構築装置10により、2回やりとりデータから、2回を超えるやりとりを含む対話モデルが得られていることが確認できる。
12 部分集合抽出部
14 見出し抽出部
16 カテゴリ抽出部
18 対話モデル学習部
20 辞書データ
22 部分集合
24 対話データDB
Claims (5)
- 返信関係にある2つの発話データからなる複数の対話データを入力とし、1つの対話データに含まれるいずれかの発話データと、他の対話データに含まれるいずれかの発話データとが類似する場合に、該類似する発話データ同士をクラスタリングして前記1つの対話データと前記他の対話データとをまとめることにより、3つ以上の発話データからなる対話データを構成し、構成された対話データを学習データとして、発話の遷移を表す対話モデルを学習する学習手段
を含む対話モデル構築装置。 - 請求項1記載の対話モデル構築装置は、
予め定めた見出し語と該見出し語のカテゴリ及び上位カテゴリとを対応させた見出し語・カテゴリ情報に基づいて、前記取得手段により取得した複数の対話データ各々に含まれる発話データ内の各単語から前記見出し語・カテゴリ情報の見出し語に対応する単語を検知し、検知された単語に見出し語・カテゴリ情報に応じたカテゴリ及び上位カテゴリを付与し、発話データ内の各単語、該単語に付与されたカテゴリ、及び上位カテゴリの少なくとも1つと、入力されたキーワードとが一致する場合に、該発話データを含む対話データを部分集合として抽出する部分集合抽出手段をさらに有し、
前記学習手段は、前記部分集合に含まれる対話データを入力とする請求項1記載の対話モデル構築装置。 - 見出し語と該見出し語のカテゴリが付与された辞書データから見出し語を抽出すると共に、抽出された見出し語に付与されたカテゴリ、及びカテゴリ間の予め定められた関係に基づいて得られる見出し語に付与されたカテゴリの上位カテゴリを抽出し、抽出された見出し語とカテゴリ及び上位カテゴリとのペアを、前記見出し語・カテゴリ情報として作成する作成手段を含む請求項2記載の対話モデル構築装置。
- 学習手段を含む対話モデル構築装置における対話モデル構築方法であって、
前記学習手段は、返信関係にある2つの発話データからなる複数の対話データを入力とし、1つの対話データに含まれるいずれかの発話データと、他の対話データに含まれるいずれかの発話データとが類似する場合に、該類似する発話データ同士をクラスタリングして前記1つの対話データと前記他の対話データとをまとめることにより、3つ以上の発話データからなる対話データを構成し、構成された対話データを学習データとして、発話の遷移を表す対話モデルを学習するステップを有する
対話モデル構築方法。 - コンピュータを、請求項1〜請求項3のいずれか1項記載の対話モデル構築装置を構成する各手段として機能させるための対話モデル構築プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011250787A JP5698105B2 (ja) | 2011-11-16 | 2011-11-16 | 対話モデル構築装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011250787A JP5698105B2 (ja) | 2011-11-16 | 2011-11-16 | 対話モデル構築装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013105436A true JP2013105436A (ja) | 2013-05-30 |
JP5698105B2 JP5698105B2 (ja) | 2015-04-08 |
Family
ID=48624895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011250787A Active JP5698105B2 (ja) | 2011-11-16 | 2011-11-16 | 対話モデル構築装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5698105B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015219304A (ja) * | 2014-05-15 | 2015-12-07 | ヤマハ株式会社 | 音響解析装置 |
JP2017072917A (ja) * | 2015-10-05 | 2017-04-13 | 富士通株式会社 | 情報処理装置、名称決定方法、および名称決定プログラム |
WO2017200081A1 (ja) * | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 取得方法、生成方法、それらのシステム、及びプログラム |
JP2018129068A (ja) * | 2018-03-16 | 2018-08-16 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
WO2018173943A1 (ja) * | 2017-03-21 | 2018-09-27 | 日本電気株式会社 | データ構造化装置、データ構造化方法およびプログラム記憶媒体 |
JP2019215483A (ja) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | 学習装置、学習方法および学習プログラム |
US10546579B2 (en) | 2017-03-22 | 2020-01-28 | Kabushiki Kaisha Toshiba | Verification system, verification method, and computer program product |
CN111801730A (zh) * | 2017-12-29 | 2020-10-20 | 得麦股份有限公司 | 用于人工智能驱动的自动伴侣的系统和方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065403A (ja) * | 2009-09-17 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 対話型性格特徴判定装置とその方法と、プログラム |
JP2011123565A (ja) * | 2009-12-08 | 2011-06-23 | Nomura Research Institute Ltd | Faq候補抽出システムおよびfaq候補抽出プログラム |
-
2011
- 2011-11-16 JP JP2011250787A patent/JP5698105B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065403A (ja) * | 2009-09-17 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 対話型性格特徴判定装置とその方法と、プログラム |
JP2011123565A (ja) * | 2009-12-08 | 2011-06-23 | Nomura Research Institute Ltd | Faq候補抽出システムおよびfaq候補抽出プログラム |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015219304A (ja) * | 2014-05-15 | 2015-12-07 | ヤマハ株式会社 | 音響解析装置 |
JP2017072917A (ja) * | 2015-10-05 | 2017-04-13 | 富士通株式会社 | 情報処理装置、名称決定方法、および名称決定プログラム |
WO2017200081A1 (ja) * | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 取得方法、生成方法、それらのシステム、及びプログラム |
JPWO2017200081A1 (ja) * | 2016-05-20 | 2019-03-28 | 日本電信電話株式会社 | 取得方法、生成方法、それらのシステム、及びプログラム |
JP7067546B2 (ja) | 2017-03-21 | 2022-05-16 | 日本電気株式会社 | データ構造化装置、データ構造化方法およびプログラム |
WO2018173943A1 (ja) * | 2017-03-21 | 2018-09-27 | 日本電気株式会社 | データ構造化装置、データ構造化方法およびプログラム記憶媒体 |
US11416555B2 (en) | 2017-03-21 | 2022-08-16 | Nec Corporation | Data structuring device, data structuring method, and program storage medium |
JPWO2018173943A1 (ja) * | 2017-03-21 | 2020-01-30 | 日本電気株式会社 | データ構造化装置、データ構造化方法およびプログラム |
US10546579B2 (en) | 2017-03-22 | 2020-01-28 | Kabushiki Kaisha Toshiba | Verification system, verification method, and computer program product |
CN111801730A (zh) * | 2017-12-29 | 2020-10-20 | 得麦股份有限公司 | 用于人工智能驱动的自动伴侣的系统和方法 |
JP2018129068A (ja) * | 2018-03-16 | 2018-08-16 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP7013329B2 (ja) | 2018-06-14 | 2022-01-31 | ヤフー株式会社 | 学習装置、学習方法および学習プログラム |
JP2019215483A (ja) * | 2018-06-14 | 2019-12-19 | Zホールディングス株式会社 | 学習装置、学習方法および学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5698105B2 (ja) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5698105B2 (ja) | 対話モデル構築装置、方法、及びプログラム | |
Bansal et al. | On predicting elections with hybrid topic based sentiment analysis of tweets | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
Donato et al. | Investigating redundancy in emoji use: Study on a twitter based corpus | |
CN105183717B (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
US9710829B1 (en) | Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities | |
Herzig et al. | Predicting customer satisfaction in customer support conversations in social media using affective features | |
CN107077640B (zh) | 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理 | |
Apriyanto et al. | Born in social media culture: personality features impact in communication context | |
CN109978020B (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
CN105989550A (zh) | 一种在线服务评价信息确定方法及设备 | |
CN108009297B (zh) | 基于自然语言处理的文本情感分析方法与系统 | |
Simm et al. | Classification of short text comments by sentiment and actionability for voiceyourview | |
Er et al. | User-level twitter sentiment analysis with a hybrid approach | |
JP2020027548A (ja) | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 | |
Wang et al. | Boosting election prediction accuracy by crowd wisdom on social forums | |
CN109298796B (zh) | 一种词联想方法及装置 | |
Higashinaka et al. | Building a conversational model from two-tweets | |
JP6368264B2 (ja) | 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法 | |
CN116340511B (zh) | 结合深度学习与语言逻辑推理的舆情分析方法 | |
Ott | Tweet like a girl: A corpus analysis of gendered language in social media | |
Liu et al. | “My curiosity was satisfied, but not in a good way”: Predicting user ratings for online recipes | |
Moreno-Sandoval et al. | Celebrity profiling on twitter using sociolinguistic | |
Alorini et al. | Machine learning enabled sentiment index estimation using social media big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140620 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141021 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5698105 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |