JP2018036580A - 疑問発話判定装置、その方法、及びプログラム - Google Patents
疑問発話判定装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP2018036580A JP2018036580A JP2016171463A JP2016171463A JP2018036580A JP 2018036580 A JP2018036580 A JP 2018036580A JP 2016171463 A JP2016171463 A JP 2016171463A JP 2016171463 A JP2016171463 A JP 2016171463A JP 2018036580 A JP2018036580 A JP 2018036580A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- question
- feature
- prosodic
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
大量の学習データが必要である理由は、言語特徴と韻律特徴との「組合せ」が膨大であるためと考えられる。本実施形態では、言語特徴と韻律特徴との組合せを考慮せず、言語特徴と韻律特徴とから独立に疑問発話かどうかをそれぞれ判定したのち、それらの判定結果を統合することで疑問発話判定を行う。これにより、言語特徴と韻律特徴との組合せではなく、個々の特徴の数を網羅できる学習データだけで疑問発話判定ができるようになると考えられる。例えば、100種類の言語特徴と50種類の韻律特徴を用いる場合、従来技術では言語特徴と韻律特徴の組合せの100×50=5000種類を網羅するために数万の学習データが必要と考えられる。一方、本実施形態では言語特徴であれば100種、韻律特徴であれば50種を網羅できればよく、それぞれ数百の学習データがあれば充分な学習が可能である。
図1は、疑問発話判定システム10の機能ブロック図を示す。疑問発話判定システム10は、疑問発話モデル学習装置100と、疑問発話判定装置200とを含む。
図2は第一実施形態に係る疑問発話モデル学習装置100の機能ブロック図を、図3はその処理フローを示す。
・入力:学習用の音声データ
・出力:学習用の韻律系列
入力された学習用の音声データに対し、時刻順に並べた韻律系列を計算する(S101)。なお、韻律を抽出する方法としていかなる方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、韻律は、基本周波数、パワー、音素継続長の少なくとも一つを含む。また、例えば、韻律は一定間隔ごとに音声波形を区切ったフレームと呼ばれる単位で抽出するものとし、フレーム長は20ミリ秒、フレーム間隔は10ミリ秒とする。基本周波数は、例えば参考文献1の手法によりフレームごとの値を得ることができる。パワーは、例えばフレーム内の音声信号の振幅の二乗の総和により求めることができる。音素継続長は、例えばフレームから取得した音響特徴(MFCCなど)を用いて音素認識を行うことで取得できる。
(参考文献1)中谷智弘、入野俊夫、「占有度を用いた耐雑音性の高い基本周波数推定法”」、信学技報、vol. 101, no. 744, pp. 21-28, 2002.
・入力:学習用の韻律系列
・出力:学習用の韻律特徴
学習用の韻律系列からその統計量を取得し、学習用の韻律特徴とする(S103)。なお、韻律特徴を抽出する方法としていかなる方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、韻律特徴は韻律の種類ごとに異なり、全体または一部の区間の統計量を用いるものとする。例えば、基本周波数に対しては、発話全体の基本周波数の平均や分散、また発話の末尾から200ミリ秒までの基本周波数の平均や分散、勾配を用いるものとする。パワーに対しては、例えば発話全体のパワーの平均や分散や勾配、発話末尾から200ミリ秒までのパワーの最大値と最小値の差を用いるものとする。音素継続長は、例えば発話全体での音素継続長の平均や分散、発話末尾の音素の継続長を用いるものとする。
・入力:学習用の韻律特徴、韻律特徴の正解データ
・出力:韻律特徴疑問発話モデル
学習用の韻律特徴及びその学習用の韻律特徴に対応する韻律特徴の正解データの集合を用いて、韻律特徴疑問発話モデルの学習を行う(S105)。なお、韻律特徴疑問発話モデルの学習方法としていかなる方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。ただし、学習には、2クラス分類(疑問発話/非疑問発話)が可能である機械学習アルゴリズムを用いるものとする。例えば、サポートベクターマシンを用いるが、他の機械学習アルゴリズムを用いてもよい。また、例えば、韻律特徴の正解データは、事前に発話を人間が聴取し、声のイントネーションから疑問発話であると感じた場合は疑問発話、感じなかった場合は非疑問発話とするものとする。
・入力:学習用の音声データ
・出力:学習用の認識結果
発話(学習用の音声データ)に音声認識技術を適用することで、学習用の音声データに含まれる単語列を取得する(S102)。なお、音声認識方法としていかなる方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、認識結果は少なくとも一つ以上の単語を含み、また各単語には品詞情報を含んでいても良い。
・入力:学習用の認識結果
・出力:学習用の言語特徴
学習用の認識結果から言語特徴を取得する(S104)。なお、言語特徴の抽出方法としていかなる方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。例えば、言語特徴は、認識結果に含まれる単語および品詞の情報から決定する。また、例えば、発話中の単語の総数や、Bag-of-wordsと呼ばれる発話中の単語ごとの出現数を用いるものとする。単語に品詞の情報を含む場合、言語特徴は、例えば、発話末尾の単語の品詞の種類や内容語の数を含む。
・入力:学習用の言語特徴、言語特徴の正解データ
・出力:言語特徴疑問発話モデル
学習用の言語特徴およびその学習用の言語特徴に対応する言語特徴の正解データの集合を用いて、言語特徴疑問発話モデルの学習を行う(S106)。なお、言語特徴疑問発話モデルの学習方法としていかなる方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。ただし、韻律特徴疑問発話モデル学習部105と同様に、学習には、2クラス分類(疑問発話/非疑問発話)が可能であるアルゴリズムを用いるものとする。例えば、言語特徴の正解データは、事前に発話を人間が聴取し、言葉の情報から疑問発話であると感じた場合は疑問発話、感じなかった場合は非疑問発話とするものとする。
図4は第一実施形態に係る疑問発話判定装置200の機能ブロック図を、図4はその処理フローを示す。
・入力:対象となる発話の韻律特徴、韻律特徴疑問発話モデル
・出力:韻律特徴による疑問発話判定結果
韻律特徴疑問発話モデルと用いて、対象となる発話の韻律特徴からその発話が疑問発話か否かを判定し(S211)、判定結果を出力する。例えば、判定結果は少なくとも疑問発話/非疑問発話の2つのうちどちらであったかの判定結果を含む。また、判定結果の疑問発話度合いを含んでいてもよい。例えば、韻律特徴疑問発話モデル学習部105においてサポートベクターマシンを用いる場合、識別平面からの距離を疑問発話度合いとして出力してもよい。
・入力:対象となる発話の言語特徴、言語特徴疑問発話モデル
・出力:言語特徴による疑問発話判定結果
言語特徴疑問発話モデルを用いて、対象となる発話の言語特徴からその発話が疑問発話か否かを判定し(S212)、判定結果を出力する。例えば、判定結果は少なくとも疑問発話/非疑問発話の2つのうちどちらであったかの判定結果を含む。また、判定結果の疑問発話度合いを含んでいてもよい。例えば、言語特徴疑問発話モデル学習部106においてサポートベクターマシンを用いる場合、識別平面からの距離を疑問発話度合いとして出力してもよい。
・入力:韻律特徴疑問発話判定部の判定結果、言語特徴疑問発話判定部の判定結果
・出力:判定結果
韻律特徴疑問発話判定部の判定結果と、言語特徴疑問発話判定部の判定結果とを用いて、対象となる発話が疑問発話か否かを判定し(S213)、出力する。以下、3つの判定方法を例示する。
(1)判定結果統合部213は、韻律特徴疑問発話判定部211の判定結果と言語特徴疑問発話判定部212の判定結果との少なくとも一方が発話が疑問発話であることを示す場合に、発話が疑問発話であると判定し、そうでない場合(判定結果統合部は、韻律特徴疑問発話判定部の判定結果と言語特徴疑問発話判定部の判定結果とが何れもが発話が非疑問発話であることを示す場合)に非疑問発話であると判定する。これは、「人間は韻律特徴と言語特徴のどちらかから疑問発話であると感じた場合、その発話が疑問発話であると判定する」という仮定に基づいている。つまり、どのような言葉を話した場合でも、語尾が上がっていれば聞き返しであるように感じ、またどのようなイントネーションで話しても、「何が〜」で始まっていれば質問であるように感じるといった仮定を置いている。
(2)判定結果統合部213は、韻律特徴疑問発話判定部211の判定結果と言語特徴疑問発話判定部212の判定結果とが何れもが発話が疑問発話であることを示す場合に、発話が疑問発話であると判定し、そうでない場合(判定結果統合部は、韻律特徴疑問発話判定部の判定結果と言語特徴疑問発話判定部の判定結果との少なくとも一方が発話が非疑問発話であることを示す場合)に非疑問発話であると判定する。このような判定方法とすることで、上述の(1)に比べ、誤って非疑問発話を疑問発話と判定する可能性を低減することができる。一方、疑問発話を検知できず、取りこぼす可能性が増加する。
(3)韻律特徴疑問発話判定部211の判定結果には韻律特徴から発話が疑問発話であると判定される度合いである韻律特徴疑問発話度合いが含まれ、言語特徴疑問発話判定部212の判定結果には言語特徴から発話が疑問発話であると判定される度合いである言語特徴疑問発話度合いが含まれる場合に、この判定方法を利用することができる。
以上の構成により、学習データが少ない場合でも高精度に疑問発話判定を行うことができ、疑問発話判定を導入する際の学習データ収集のコストを削減することができる。
疑問発話モデル学習装置100と疑問発話判定装置200とは同一の装置内に実装してもよく、韻律抽出部101と韻律抽出部201とを同一の構成としてもよい。韻律特徴抽出部103,203、音声認識部102,202、言語特徴抽出部104,204についても同様である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (5)
- 韻律特徴とその韻律特徴に対応する発話が疑問発話かどうかの関係性を示す韻律特徴疑問発話モデルを用いて、対象となる発話の音声データから得られる韻律特徴から前記発話が疑問発話か否かを判定する韻律特徴疑問発話判定部と、
言語特徴とその言語特徴に対応する発話が疑問発話かどうかの関係性を示す言語特徴疑問発話モデルを用いて、前記音声データから得られる言語特徴から前記発話が疑問発話か否かを判定する言語特徴疑問発話判定部と、
前記韻律特徴疑問発話判定部の判定結果と、前記言語特徴疑問発話判定部の判定結果とを用いて、前記発話が疑問発話か否かを判定する判定結果統合部とを含む、
疑問発話判定装置。 - 請求項1の疑問発話判定装置であって、
前記判定結果統合部は、前記韻律特徴疑問発話判定部の判定結果と前記言語特徴疑問発話判定部の判定結果との少なくとも一方が前記発話が疑問発話であることを示す場合に、前記発話が疑問発話であると判定する、
疑問発話判定装置。 - 請求項1の疑問発話判定装置であって、
前記韻律特徴疑問発話判定部の判定結果には前記発話が疑問発話であると判定される度合いである韻律特徴疑問発話度合いが含まれ、前記言語特徴疑問発話判定部の判定結果には前記発話が疑問発話であると判定される度合いである言語特徴疑問発話度合いが含まれ、
前記判定結果統合部は、前記韻律特徴疑問発話度合いと前記言語特徴疑問発話度合いとの重み付け和と、所定の閾値との大小関係により、前記発話が疑問発話であるか否かを判定する、
疑問発話判定装置。 - 韻律特徴疑問発話判定部が、韻律特徴とその韻律特徴に対応する発話が疑問発話かどうかの関係性を示す韻律特徴疑問発話モデルを用いて、対象となる発話の音声データから得られる韻律特徴から前記発話が疑問発話か否かを判定する韻律特徴疑問発話判定ステップと、
言語特徴疑問発話判定部が、言語特徴とその言語特徴に対応する発話が疑問発話かどうかの関係性を示す言語特徴疑問発話モデルを用いて、前記音声データから得られる言語特徴から前記発話が疑問発話か否かを判定する言語特徴疑問発話判定ステップと、
判定結果統合部が、前記韻律特徴疑問発話判定ステップの判定結果と、前記言語特徴疑問発話判定ステップの判定結果とを用いて、前記発話が疑問発話か否かを判定する判定結果統合ステップとを含む、
疑問発話判定方法。 - 請求項1から請求項3の何れかの疑問発話判定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016171463A JP6594273B2 (ja) | 2016-09-02 | 2016-09-02 | 疑問発話判定装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016171463A JP6594273B2 (ja) | 2016-09-02 | 2016-09-02 | 疑問発話判定装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018036580A true JP2018036580A (ja) | 2018-03-08 |
JP6594273B2 JP6594273B2 (ja) | 2019-10-23 |
Family
ID=61567360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016171463A Active JP6594273B2 (ja) | 2016-09-02 | 2016-09-02 | 疑問発話判定装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6594273B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019187543A1 (ja) * | 2018-03-30 | 2019-10-03 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004513445A (ja) * | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス |
JP2004226881A (ja) * | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | 会話システム及び会話処理プログラム |
JP2010034695A (ja) * | 2008-07-25 | 2010-02-12 | Toshiba Corp | 音声応答装置及び方法 |
JP2016061970A (ja) * | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 音声対話装置、方法およびプログラム |
-
2016
- 2016-09-02 JP JP2016171463A patent/JP6594273B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004513445A (ja) * | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス |
JP2004226881A (ja) * | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | 会話システム及び会話処理プログラム |
JP2010034695A (ja) * | 2008-07-25 | 2010-02-12 | Toshiba Corp | 音声応答装置及び方法 |
JP2016061970A (ja) * | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 音声対話装置、方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
KOFI BOAKYE ET AL.: "Any Questions? Automatic Question Detection in Meetings", ASRU 2009, JPN6019025395, November 2009 (2009-11-01), pages 485 - 489, XP031595759, ISSN: 0004069735 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019187543A1 (ja) * | 2018-03-30 | 2019-10-03 | ソニー株式会社 | 情報処理装置および情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6594273B2 (ja) | 2019-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101963993B1 (ko) | 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법 | |
CN108399923B (zh) | 多人发言中发言人识别方法以及装置 | |
US20190005961A1 (en) | Method and device for processing voice message, terminal and storage medium | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
Yousaf et al. | A Novel Technique for Speech Recognition and Visualization Based Mobile Application to Support Two‐Way Communication between Deaf‐Mute and Normal Peoples | |
Prasad et al. | Intelligent chatbot for lab security and automation | |
JP2015510147A (ja) | テキストの音声化及び意味に基づくオーディオhip | |
CN110600014B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN109448704A (zh) | 语音解码图的构建方法、装置、服务器和存储介质 | |
CN112581963B (zh) | 一种语音意图识别方法及系统 | |
US11270691B2 (en) | Voice interaction system, its processing method, and program therefor | |
Kopparapu | Non-linguistic analysis of call center conversations | |
US20190206386A1 (en) | Method and system for text-to-speech synthesis | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
JP2019128533A (ja) | 脳活動を利用した語学能力評価装置、及び語学能力評価システム | |
US10522135B2 (en) | System and method for segmenting audio files for transcription | |
JP6594273B2 (ja) | 疑問発話判定装置、その方法、及びプログラム | |
CN113990288B (zh) | 一种语音客服自动生成部署语音合成模型的方法 | |
Mohanty et al. | Isolated Odia digit recognition using HTK: an implementation view | |
CN112017668B (zh) | 一种基于实时情感检测的智能语音对话方法、装置和系统 | |
JP7229144B2 (ja) | 文章記号挿入装置及びその方法 | |
JP2016009091A (ja) | 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム | |
Sefara et al. | The development of local synthetic voices for an automatic pronunciation assistant | |
CN113763992A (zh) | 语音测评方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6594273 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |