JP5591772B2 - 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム - Google Patents
文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5591772B2 JP5591772B2 JP2011184054A JP2011184054A JP5591772B2 JP 5591772 B2 JP5591772 B2 JP 5591772B2 JP 2011184054 A JP2011184054 A JP 2011184054A JP 2011184054 A JP2011184054 A JP 2011184054A JP 5591772 B2 JP5591772 B2 JP 5591772B2
- Authority
- JP
- Japan
- Prior art keywords
- clustering
- utterance
- context
- utterances
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、本発明の発話クラスタリング装置及び方法によれば、対話データについて、文脈を考慮して発話を精度良くクラスタリングすることができる、という効果が得られる。
<システム構成>
本発明の第1の実施の形態に係る文脈依存性推定装置100は、特定のドメインに関連する複数の発話の時系列である対話データが入力され、文脈依存性を推定して出力する。この文脈依存性推定装置100は、CPUと、RAMと、後述する文脈依存度推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、文脈依存性推定装置100は、入力部10と、演算部20と、出力部28とを備えている。
次に、本実施の形態に係る文脈依存性推定装置100の作用について説明する。まず、あるドメインに関する複数の発話の時系列が対話データとして文脈依存性推定装置100に複数入力されると、文脈依存性推定装置100によって、入力された複数の対話データが、対話データ記憶部21へ格納される。そして、文脈依存性推定装置100によって、図2に示す文脈依存性推定処理ルーチンが実行される。
以下に、実施例を示す。対話システムと人間との対話データと、人間同士の対話データをクラスタリングする例を用いて説明する。なお、ここで用いるデータは、チャットインタフェースを通して集められたデータであり、テキスト対話のデータである。
また、以下の表2に、ALドメインの発話のクラスタリング結果を示す。
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
次に、第3の実施の形態について説明する。
20 演算部
21、21A、21B 対話データ記憶部
22、22A、22B、222発話クラスタリング部
23、23A、23B 文脈依存度算出部
30 特徴量抽出部
31、232 CRPクラスタリング部
32 無限HMMクラスタリング部
100、200、300 文脈依存性推定装置
231 文脈情報付加部
323 文脈依存比算出部
Claims (13)
- 複数の発話の時系列である対話データから、各発話の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された各発話の特徴量に基づいて、前記複数の発話をクラスタリングする第1クラスタリング手段と、
前記特徴量抽出手段によって抽出された各発話の特徴量に基づいて、前記発話の文脈情報を用いて、前記複数の発話をクラスタリングする第2クラスタリング手段と、
前記第1クラスタリング手段によるクラスタリング結果、及び前記第2クラスタリング手段によるクラスタリング結果に基づいて、文脈に依存している度合いを推定する推定手段と、
を含む文脈依存性推定装置。 - 前記第1クラスタリング手段は、CRP(Chinese Restaurant Process)に従って、前記複数の発話をクラスタリングし、
前記第2クラスタリング手段は、無限HMM(Hidden Markov Model)に従って、前記対話データの発話間の遷移情報を用いて前記複数の発話をクラスタリングする請求項1記載の文脈依存性推定装置。 - 前記第2クラスタリング手段は、前記特徴量抽出手段によって抽出された各発話の特徴量に、前記発話の文脈情報として該発話の直前の発話の特徴量を付加した付加特徴量を各々生成し、前記生成された各発話の前記付加特徴量に基づいて、前記複数の発話をクラスタリングする請求項1記載の文脈依存性推定装置。
- 前記対話データは、特定のドメインに関する対話データであり、
前記推定手段は、以下の式に従って、前記特定のドメインにおける前記発話の文脈依存度を推定する請求項1〜請求項3の何れか1項記載の文脈依存性推定装置。
ただし、クラスタ数C1は、前記第1クラスタリング手段によってクラスタリングされたクラスタ数であり、クラスタ数C2は、前記第2クラスタリング手段によってクラスタリングされたクラスタ数である。 - 前記対話データは、異なる2つのドメインに関する対話データであり、
前記第1クラスタリング手段は、各ドメインについて、前記ドメインに関する対話データの複数の発話を各々クラスタリングし、
前記第2クラスタリング手段は、各ドメインについて、前記ドメインに関する対話データの複数の発話を各々クラスタリングし、
前記推定手段は、各ドメインにつて、前記発話の文脈依存度を推定すると共に、以下の式に従って、前記ドメインの文脈依存比を推定する請求項4記載の文脈依存性推定装置。
- 前記推定手段は、以下の式に従って、前記第1クラスタリング手段によってクラスタリングされたクラスタCの文脈依存度を推定する請求項1〜請求項3の何れか1項記載の文脈依存性推定装置。
ただし、C’は、前記第2クラスタリング手段によってクラスタリングされたクラスタの集合であり、cは、C’の要素であるクラスタである。 - 前記推定手段は、前記第1クラスタリング手段によってクラスタリングされた各クラスタの文脈依存度を推定すると共に、以下の式に従って、前記第1クラスタリング手段によってクラスタリングされたクラスタの平均文脈依存度を推定する請求項6記載の文脈依存性推定装置。
ただし、c’’は、Cの要素であるクラスタである。 - 特徴量抽出手段、第1クラスタリング手段、第2クラスタリング手段、及び推定手段を含む文脈依存性推定装置における文脈依存性推定方法であって、
前記文脈依存性推定装置は、
前記特徴量抽出手段によって、複数の発話の時系列である対話データから、各発話の特徴量を抽出し、
前記第1クラスタリング手段によって、前記特徴量抽出手段によって抽出された各発話の特徴量に基づいて、前記複数の発話をクラスタリングし、
前記第2クラスタリング手段によって、前記特徴量抽出手段によって抽出された各発話の特徴量に基づいて、前記発話の文脈情報を用いて、前記複数の発話をクラスタリングし、
前記推定手段によって、前記第1クラスタリング手段によるクラスタリング結果、及び前記第2クラスタリング手段によるクラスタリング結果に基づいて、文脈に依存している度合いを推定する
ことを特徴とする文脈依存性推定方法。 - 入力された複数の発話の時系列である自然言語の対話データを受け付ける入力手段と、
前記入力手段により受け付けた前記対話データを記憶する対話データ記憶手段と、
前記対話データから、各発話のbag−of−words特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された前記各発話のbag−of−words特徴量に基づいて、無限HMM(Hidden Markov Model)に従って、前記複数の発話を、当該発話の直前の発話および直後の発話におけるクラスタ間の遷移確率に比例する確率に従ってクラスタリングする無限HMMクラスタリング手段と、
を含む発話クラスタリング装置。 - 入力された複数の発話の時系列である対話データを受け付ける入力手段と、
前記入力手段により受け付けた前記対話データを記憶する対話データ記憶手段と、
前記対話データから、各発話の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段によって抽出された各発話の特徴量に、前記発話の文脈情報として該発話の直前の発話の特徴量を付加した付加特徴量を各々生成する文脈情報付加手段と、
前記文脈情報付加手段によって生成された各発話の付加特徴量に基づいて、CRP(Chinese Restaurant Process)に従って、前記複数の発話をクラスタリングするCRPクラスタリング手段と、
を含む発話クラスタリング装置。 - 入力手段、対話データ記憶手段、特徴量抽出手段、及び無限HMMクラスタリング手段を含む発話クラスタリング装置における発話クラスタリング方法であって、
前記発話クラスタリング装置は、
前記入力手段によって、入力された複数の発話の時系列である自然言語の対話データを受け付け、
前記入力手段により受け付けた前記対話データを対話データ記憶手段に記憶し、
特徴量抽出手段によって、前記対話データから、各発話のbag−of−words特徴量を抽出し、
前記無限HMMクラスタリング手段によって、前記特徴量抽出手段によって抽出された前記各発話のbag−of−words特徴量に基づいて、無限HMM(Hidden Markov Model)に従って、前記複数の発話を、当該発話の直前の発話および直後の発話におけるクラスタ間の遷移確率に比例する確率に従ってクラスタリングする
ことを特徴とする発話クラスタリング方法。 - 入力手段、対話データ記憶手段、特徴量抽出手段、文脈情報付加手段、及びCRPクラスタリング手段を含む発話クラスタリング装置における発話クラスタリング方法であって、
前記発話クラスタリング装置は、
前記入力手段によって、入力された複数の発話の時系列である対話データを受け付け、
前記入力手段により受け付けた前記対話データを前記対話データ記憶手段に記憶し、
前記特徴量抽出手段によって、前記対話データから、各発話の特徴量を抽出し、
前記文脈情報付加手段によって、前記特徴量抽出手段によって抽出された各発話の特徴量に、前記発話の文脈情報として該発話の直前の発話の特徴量を付加した付加特徴量を各々生成し、
前記CRPクラスタリング手段によって、前記文脈情報付加手段によって生成された各発話の付加特徴量に基づいて、CRP(Chinese Restaurant Process)に従って、前記複数の発話をクラスタリングする
ことを特徴とする発話クラスタリング方法。 - コンピュータを、請求項1〜請求項7の何れか1項記載の文脈依存性推定装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011184054A JP5591772B2 (ja) | 2011-08-25 | 2011-08-25 | 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011184054A JP5591772B2 (ja) | 2011-08-25 | 2011-08-25 | 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013045363A JP2013045363A (ja) | 2013-03-04 |
JP5591772B2 true JP5591772B2 (ja) | 2014-09-17 |
Family
ID=48009201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011184054A Active JP5591772B2 (ja) | 2011-08-25 | 2011-08-25 | 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5591772B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3260996A1 (en) | 2016-06-23 | 2017-12-27 | Panasonic Intellectual Property Management Co., Ltd. | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5968283B2 (ja) * | 2013-08-27 | 2016-08-10 | 日本電信電話株式会社 | トピックモデル学習装置とその方法、そのプログラムと記録媒体 |
JP6285377B2 (ja) * | 2015-02-26 | 2018-02-28 | 日本電信電話株式会社 | コミュニケーションスキル評価フィードバック装置、コミュニケーションスキル評価フィードバック方法及びコミュニケーションスキル評価フィードバックプログラム |
US10964323B2 (en) * | 2016-05-20 | 2021-03-30 | Nippon Telegraph And Telephone Corporation | Acquisition method, generation method, system therefor and program for enabling a dialog between a computer and a human using natural language |
JP6928346B2 (ja) * | 2017-07-11 | 2021-09-01 | 日本電信電話株式会社 | 予測装置、予測方法および予測プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219286A (ja) * | 2006-02-17 | 2007-08-30 | Tokyo Institute Of Technology | 音声のスタイル検出装置、その方法およびそのプログラム |
US8630853B2 (en) * | 2007-03-26 | 2014-01-14 | Nec Corporation | Speech classification apparatus, speech classification method, and speech classification program |
JP5255484B2 (ja) * | 2009-02-27 | 2013-08-07 | 日本放送協会 | クラスタリング距離学習装置およびそのプログラム、ならびに、クラスタリング装置 |
JP5281990B2 (ja) * | 2009-08-26 | 2013-09-04 | 日本電信電話株式会社 | クラスタリング装置、クラスタリング方法、およびプログラム |
-
2011
- 2011-08-25 JP JP2011184054A patent/JP5591772B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3260996A1 (en) | 2016-06-23 | 2017-12-27 | Panasonic Intellectual Property Management Co., Ltd. | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2013045363A (ja) | 2013-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6671020B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
CN106777013B (zh) | 对话管理方法和装置 | |
JP5591772B2 (ja) | 文脈依存性推定装置、発話クラスタリング装置、方法、及びプログラム | |
KR101711839B1 (ko) | 구절 시퀀스들의 재사용을 통한 문서 전개를 추론함에 의한 문서 유사도 측정 | |
KR102398993B1 (ko) | 텍스트 생성 장치 및 방법 | |
JP5698105B2 (ja) | 対話モデル構築装置、方法、及びプログラム | |
Huang et al. | Hierarchical Bayesian language models for conversational speech recognition | |
CN104350490A (zh) | 用于组织与产品相关的数据的方法、装置以及计算机可读介质 | |
JP2018190136A (ja) | 興味判定装置、興味判定方法、及びプログラム | |
JP2019194808A (ja) | 事象予測装置、予測モデル生成装置および事象予測用プログラム | |
Atmadja et al. | Comparison on the rule based method and statistical based method on emotion classification for Indonesian Twitter text | |
JP2018194902A (ja) | 生成装置、生成方法および生成プログラム | |
Imoto et al. | Acoustic scene analysis based on latent acoustic topic and event allocation | |
JP2017125921A (ja) | 発話選択装置、方法、及びプログラム | |
CN110019832B (zh) | 语言模型的获取方法和装置 | |
El Janati et al. | Adaptive e-learning AI-powered chatbot based on multimedia indexing | |
CN108021565B (zh) | 一种基于对话的用户满意度的分析方法及装置 | |
KR20210031094A (ko) | 트리 기반 이상치 탐지 장치 및 방법, 컴퓨터 프로그램 | |
JP6910002B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP2015097026A (ja) | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム | |
JP6806619B2 (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
JP5937529B2 (ja) | 時系列データ成分分解装置、方法、プログラム、及び記録媒体 | |
Gropp et al. | Clustered latent Dirichlet allocation for scientific discovery | |
JP5860439B2 (ja) | 言語モデル作成装置とその方法、そのプログラムと記録媒体 | |
JP4346531B2 (ja) | テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5591772 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |