JP6696923B2 - 音声対話装置、その処理方法及びプログラム - Google Patents

音声対話装置、その処理方法及びプログラム Download PDF

Info

Publication number
JP6696923B2
JP6696923B2 JP2017040580A JP2017040580A JP6696923B2 JP 6696923 B2 JP6696923 B2 JP 6696923B2 JP 2017040580 A JP2017040580 A JP 2017040580A JP 2017040580 A JP2017040580 A JP 2017040580A JP 6696923 B2 JP6696923 B2 JP 6696923B2
Authority
JP
Japan
Prior art keywords
filler
voice
utterance
response sentence
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017040580A
Other languages
English (en)
Other versions
JP2018146715A (ja
Inventor
達也 河原
達也 河原
高梨 克也
克也 高梨
亮輔 中西
亮輔 中西
生聖 渡部
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Toyota Motor Corp
Original Assignee
Kyoto University
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University, Toyota Motor Corp filed Critical Kyoto University
Priority to JP2017040580A priority Critical patent/JP6696923B2/ja
Priority to US15/883,240 priority patent/US10452352B2/en
Priority to EP18155702.6A priority patent/EP3370230B1/en
Priority to CN201810175617.5A priority patent/CN108630203B/zh
Publication of JP2018146715A publication Critical patent/JP2018146715A/ja
Application granted granted Critical
Publication of JP6696923B2 publication Critical patent/JP6696923B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Description

本発明は、ユーザと音声対話を行う音声対話装置、その処理方法及びプログラムに関する。
対話間にフィラー語(場つなぎ語)を挿入して不自然に間延びしないようにする音声対話装置が知られている(特許文献1参照)。
特開2014−191030号公報
しかしながら、対話間の待ち時間が生じたときの場つなぎ語として、形式的なフィラー語を出力している。このため、そのフィラー語が対話内容に合わず、対話の自然性が損なわれる虞がある。
本発明は、このような問題点を解決するためになされたものであり、より自然な対話を行うことができる音声対話装置、その処理方法及びプログラムを提供することを主たる目的とする。
上記目的を達成するための本発明の一態様は、ユーザの音声を認識する音声認識手段と、前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置であって、前記応答文生成手段により生成された応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する分類手段を備え、前記出力手段が、第1の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第2の前記応答文を出力する場合において、前記分類手段は、前記第1の応答文を、前記発話パターンのうちのいずれかに分類し、前記フィラー生成手段は、前記分類手段により分類された発話パターンに基づいて、前記フィラー語を生成する、ことを特徴とする音声対話装置である。
本態様によれば、第1の応答文の発話パターンに応じてフィラー語を生成することで、その後のユーザの音声内容に対応した、最適なフィラー語を生成することができる。この最適なフィラー語を出力することで、より自然な対話を行うことができる。
この一態様において、前記発話パターンと、該発話パターンに対応付けられた特徴量の種類に関する情報と、を含むテーブル情報を記憶する記憶手段と、前記分類手段により分類された発話パターンに対応付けられた特徴量の種類に関する情報に基づいて、先行又は後続の発話の特徴量を算出する特徴量算出手段と、を更に備え、前記フィラー生成手段は、前記特徴量算出手段により算出された特徴量に基づいて、前記フィラー語を生成してもよい。
これにより、第1の応答文を、所定の発話パターンのうちのいずれかに分類し、分類された発話パターンに対応した最適な先行又は後続の発話の特徴量を算出し、算出した特徴量を用いてその対話に最適なフィラー語を生成できる。
この一態様において、前記特徴量の種類に関する情報は、先行発話の韻律情報、先行発話の言語情報、後続発話の言語情報、及び、後続発話の韻律情報のうち少なくとも1つを含んでいてもよい。
これにより、処理負荷の軽減と適切なフィラー語の生成との両立を図り、対話のリズム及び自然性を向上させることができる。
この一態様において、前記記憶手段は、少なくとも1つの前記フィラー語を含み該フィラー語の系統を示すフィラー系に特徴量がそれぞれ対応付けられたフィラー形態情報を記憶しており、前記フィラー生成手段は、前記分類手段により分類された発話パターンに基づいて、前記フィラー系の数を絞り込み、該絞り込んだフィラー系の中から、前記特徴量算出手段により算出された特徴量に対応付けられ1つのフィラー系を選択し、該選択したフィラー系に含まれる前記フィラー語を選択することで、前記フィラー語を生成してもよい。
このように、事前にフィラー系の数を絞り込むことで、さらに処理負荷を軽減することができる。
上記目的を達成するための本発明の一態様は、ユーザの音声を認識する音声認識手段と、前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置の処理方法であって、前記出力手段が、第1の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第2の前記応答文を出力する場合において、前記第1の応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類するステップと、前記分類された発話パターンに基づいて、前記フィラー語を生成するステップと、を含むことを特徴とする音声対話装置の処理方法であってもよい。
上記目的を達成するための本発明の一態様は、ユーザの音声を認識する音声認識手段と、前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置のプログラムであって、前記出力手段が、第1の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第2の前記応答文を出力する場合において、前記第1の応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する処理と、前記分類された発話パターンに基づいて、前記フィラー語を生成する処理と、をコンピュータに実行させることを特徴とする音声対話装置のプログラムであってもよい。
本発明によれば、より自然な対話を行うことができる音声対話装置、音声対話方法及びプログラムを提供することができる。
本発明の一実施形態に係る音声対話装置の概略的なシステム構成を示すブロック図である。 発話パターンの一例を示す図である。 装置発話及びユーザ発話の一例を示す図である。 先行の装置発話と後続のユーザ発話との対応の一例を示す図である。 発話パターンと特徴量の種類とを対応づけたテーブル情報の一例である。 フィラー系の一例を示す図である。 本発明の一実施形態に係る音声対話装置の処理方法のフローを示すフローチャートである。
以下、図面を参照して本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る音声対話装置の概略的なシステム構成を示すブロック図である。本実施形態に係る音声対話装置1は、例えば、ロボット、PC(PersonalComputer)、携帯端末(スマートフォン、タブレットなど)等に搭載され、ユーザと対話を行う。
音声対話装置1は、例えば、ユーザの音声を認識する音声認識部2と、音声の構文を解析する構文解析部3と、ユーザの音声に対する応答文を生成する応答文生成部4と、フィラー語を生成するフィラー生成部5と、音声を出力する音声出力部6と、発話の分類を行う分類部7と、特徴量を算出する特徴量算出部8と、データを記憶する記憶部9と、を備えている。
なお、音声対話装置1は、例えば、演算処理等と行うCPU(Central Processing Unit)、CPUによって実行される演算プログラム等が記憶されたROM(Read Only Memory)やRAM(Random Access Memory)からなるメモリ、外部と信号の入出力を行うインターフェイス部(I/F)、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。CPU、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。
音声認識部2は、音声認識手段の一具体例である。音声認識部2は、例えば、マイクを介して入力されたユーザの音声情報に基づいて音声認識処理を行い、ユーザの音声情報をテキスト化し文字列情報として認識する。
例えば、音声認識部2は、マイクを介して入力されたユーザの音声情報をデジタル化する。音声認識部2は、そのデジタル化した情報から発話区間を検出し、検出した発話区間の音声情報に対して、統計言語モデルなどを参照してパターンマッチングを行うことで音声認識を行う。
ここで、統計言語モデルは、例えば、単語の出現分布やある単語の次に出現する単語の分布等、言語表現の出現確率を計算するための確率モデルであり、形態素単位で連結確率を学習したものである。統計言語モデルは、記憶部9などに予め記憶されている。音声認識部2は、ユーザの音声情報の各形態素に対してその品詞種類(名詞、形容詞、動詞、副詞など)を付加した品詞情報付き形態素情報を生成する。音声認識部2は、認識したユーザの音声情報を構文解析部3に出力する。
記憶部9は記憶手段の一具体例である。記憶部9は、例えば、メモリなどで構成されている。
構文解析部3は、音声認識部2により認識された音声情報の構文を解析する。構文解析部3は、例えば、一般的な形態素解析器を用いて音声認識されたユーザの音声情報を示す文字列情報に対して形態素解析などを行い、文字列情報の意味解釈を行う。構文解析部3は、文字列情報の解析結果(形態素情報、係り受け情報、認識結果のテキストなどを含む)を応答文生成部4に出力する。
応答文生成部4は、応答文生成手段の一具体例である。応答文生成部4は、構文解析部3により解析された音声情報の構文に基づいて、ユーザの音声情報に対する応答文を生成する。
応答文生成部4は、例えば、構文解析部3から出力される文字列情報の解析結果に基づいて、ユーザの音声情報に対する応答文を生成する。より、具体的には、応答文生成部4は、文字列情報「囲碁を打ちますよ。」から一つの述語項「囲碁を打つ」を抜き出す。構文解析部3は、抜き出した形態素列「囲碁 を 打つ」を特徴べクトルとし、SVM(support vector machine)モデルを用いて、文字列情報を解析して予め定めた二つの分類のいずれかに属するかを判別する。
応答文生成部4は、文字列情報を解析した結果、予め定めた分類のうちの一方の分類に属すると判別された場合、応答文「いいですね。」を生成する。一方、応答文生成部4は、文字列情報を解析した結果、予め定めた分類のうちの他方の分類に属すると判別された場合、応答文「大変ですね。」を生成する。なお、上述した応答文の生成方法は一例であり、これに限定されず、予め定めた分類の数を増やすなど、任意の生成方法を用いることができる。また、応答文生成部4は、予め定めた分類を「ポジティブ」と「ネガティブ」のように感情として感情判別を行っても良い。応答文生成部4は、生成した応答文を音声出力部6に出力する。
フィラー生成部5は、フィラー生成手段の一具体例である。フィラー生成部5は、ユーザと音声対話装置1との対話間に挿入するフィラー語を生成する。フィラー語は、例えば「あのー」、「えーと」、「うーん」、等の、場つなぎ語である。フィラー生成部5は、生成したフィラー語を音声出力部6に出力する。
音声出力部6は、出力手段の一具体例である。音声出力部6は、応答文生成部4により生成された応答文及びフィラー生成部5により生成されたフィラー語を、音声で出力する。音声出力部6は、例えば、スピーカなどを用いてユーザに対して応答文及びフィラー語の音声を出力する。
音声出力部6は、例えば、フィラー生成部5により生成されたフィラー語と、応答文生成部4により生成された応答文と、に基づいて、フィラー語及び応答文の音声を合成し、合成した音声を出力する。音声出力部6は、予め記憶部9などに設定された音声ファイルを選択することで、フィラー語及び応答文の音声を出力してもよい。
ところで、従来の音声対話装置においては、例えば、対話間の待ち時間が生じたときの場つなぎ語として、形式的なフィラー語を出力している。このため、そのフィラー語が対話内容に合わず、対話の自然性が損なわれる虞がある。
これに対し、本実施形態に係る音声対話装置1は、応答文生成部4により生成された応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する分類部7を備えている。音声出力部6が、第1の応答文に続くユーザの音声後、フィラー語を出力し、第2の応答文を出力する。この場合において、分類部7は、第1の応答文を、発話パターンのうちのいずれかに分類する。フィラー生成部5は、分類部7により分類された発話パターンに基づいて、フィラー語を生成する。
第1の応答文の内容に応じて、後続のユーザの音声及び第2の応答文の内容は変化する。したがって、第1の応答文の発話パターンに基づいてフィラー語を生成することで、ユーザの音声及び第2の応答文の内容に対応した、最適なフィラー語を生成することができる。この最適なフィラー語を出力することで、より自然な対話を行うことができる。例えば、雑談時などにおいては、最適なフィラー語を出力することで、形式的なフィラー語とは異なる、人間らしい自然な場つなぎを行うことができる。
分類部7は、分類手段の一具体例である。分類部7は、音声出力部6により出力される応答文(以下、装置発話)及びユーザの音声(以下、ユーザ発話)を、複数の発話パターンのうちのいずれかに分類する。発話パターンは、予め設定され発話の種類を示すものである。
発話パターンは、例えば、ユーザ又は音声対話装置1が行う対話行為に基づいて、複数のパターンに分類されており、記憶部9などに設定されている。対話行為は、ユーザ発話と装置発話の関係性を示したものである。
発話パターンは、例えば、図2に示す如く、(1)真偽を問う質問パターン「Yes/No質問パターン」、(2)集合の中から選ぶ質問パターン「Wh(When、Where、What、Why)質問パターン」、(3)回答、同意、受諾などを含むパターン「回答パターン」、(4)自己開示、依頼などを含むパターン「開示パターン」、(5)挨拶、導入などを含むパターン「それ以外パターン」、などに分類される。なお、この発話パターンは一例であり、これに限定されない。
図3は、装置発話及びユーザ発話の一例を示す図である。図3において、装置発話及びユーザ発話が時系列に並べられている。時刻T−3〜T−1は現在時刻T前の過去の装置発話及びユーザ発話(先行発話)であり、時刻T+1〜T+3は現在時刻T後の装置発話及びユーザ発話(後続発話)である。
例えば、図3に示す如く、分類部7は、時刻T−3〜T+3までのユーザ発話及び装置発話に基づいて、ルールベースや分類モデルを用いて、ユーザ発話及び装置発話を分類できる。より具体的には、分類部7は、時刻Tの装置発話「何か趣味はありますか?」を、ユーザへの「Wh質問パターン」に分類し、それに続く時刻T+1のユーザ発話「囲碁を打ちますよ。」を、「回答パターン」に分類する。分類部7は、その後、状態系列推定モデル(条件付き確率場)などを用いて、さらに続く時刻T+3の装置発話「いいですね」を「回答パターン」に分類する。
分類部7は、先行するユーザ発話と、それに続く装置発話とを組み合わせて分類を行ってもよい。例えば、発話パターンが「yes/no質問パターン」である場合、それに続く発話パターンは「回答パターン」に必然的に決まる。したがって、分類部7は、先行するユーザ発話が「yes/no質問パターン」である場合、それに続く装置発話を「回答パターン」に分類する。同様に、分類部7は、先行するユーザ発話が「回答パターン」である場合、それに続く装置発話を「回答パターン」に分類する。
分類部7は、ルールベースを用いて、先行の装置発話に応じて、その後続のユーザ発話を分類してもよい。例えば、図4に示す如く、分類部7は、ルールベースを用いて、時刻Tの装置発話が「yes/no質問パターン」あるいは「wh質問パターン」の場合、時刻T+1のユーザ発話を「回答パターン」に分類する。同様に、分類部7は、ルールベースを用いて、時刻Tの装置発話が「回答パターン」の場合、時刻T+1のユーザ発話を「開示パターン」に分類する。
分類部7は、事前に品詞とその系列、述語項とその系列、及び、正解となる分類を付与したデータに基づいて分類モデルを学習し、その学習結果を用いて時刻T+1のユーザ発話を分類してもよい。分類部7は、T−3〜T+1発話までの系列に基づいて、時刻T+2の装置発話の分類を行うことができる。
特徴量算出部8は、特徴量算出手段の一具体例である。特徴量算出部8は、分類部7により分類された第1の応答文(装置発話)の発話パターンに対応付けられた特徴量の種類に関する情報に基づいて、先行又は後続の発話の特徴量を算出する。
ここで、対話シーンによって、その対話間に挿入する最適なフィラー形態は異なる。例えば、時刻Tの第1の応答文に続く時刻T+1のユーザの音声後、時刻T+2のフィラー語を出力し、時刻T+3の第2の応答文を出力する対話シーンでは、第1の応答文の内容によって、その後に挿入する最適なフィラー形態は異なる。さらに、その最適なフィラー形態を判別するのに最適な特徴の捉え方も異なる。
例えば、真偽を問う「yes/No質問パターン」の後に挿入するフィラー形態は、先行発話の韻律情報(発話長など)が深くかかわる。このため、先行発話の韻律情報の特徴を捉え、その特徴に合ったフィラー形態を選択し、フィラー語を生成することが、より自然な対話を行う上で特に有効となる。
したがって、特徴量算出部8は、分類部7により分類された第1の応答文の発話パターンに対応付けられた特徴量の種類に関する情報に基づいて、先行又は後続の発話の特徴量を算出する。フィラー生成部5は、特徴量算出部8により算出された特徴量に応じて、最適なフィラー語を生成する。
これにより、第1の応答文を、所定の発話パターンのうちのいずれかに分類し、分類された発話パターンに対応した最適な先行又は後続の発話の特徴量を算出し、算出した特徴量を用いてその対話に最適なフィラー語を生成できる。
発話パターンには、例えば、図5に示す如く、特徴量の種類に関する情報が対応付けられている。図5は、発話パターンと特徴量の種類と、を対応づけたテーブル情報の一例である。テーブル情報は、記憶部9などに予め設定されている。なお、図5に示すテーブル情報は一例であり、これに限定されない。
図5において、例えば、「Yes/No質問パターン」は、「先行発話の韻律情報」に対応付けられ、「Wh質問パターン」は、「先行発話の韻律情報」及び「先行発話の言語情報」に対応付けられ、「回答パターン」は、「後続発話の言語情報」に対応付けられている。
ここで、「先行発話の韻律情報」は、先行発話における、例えば、音声の発話末の所定時間(100msec程度)におけるF0(基本周波数)、パワーの最大値、最小値、平均、一次回帰係数(傾き)、発話長、ポーズ長、話速などを含む。
「先行発話の言語情報」は、先行発話における、例えば、発話末の品詞、発話末の節境界ラベル、単語数、文節数などを含む。節境界ラベルは、節境界直後の切れ目の大きさという観点から、「思います」などの絶対境界、「けれども」などの強境界、「なら」などの弱境界、という3つのレベルに区分されている。「後続発話の言語情報」では、後続発話における、冒頭発話の品詞、単語数、文節数などを含む。
特徴量算出部8は、分類部7により分類された発話パターンと、記憶部9のテーブル情報と、に基づいて、分類された発話パターンに対応する特徴量(特徴ベクトル)を算出する。特徴量算出部8は、音声認識部2からのユーザの音声情報、構文解析部3からの文字列情報、応答文生成部4からの応答文(テキストデータ)などに基づいて、先行発話の韻律情報、先行発話の言語情報、及び後続発話の言語情報の特徴ベクトルを算出する。
例えば、特徴量算出部8は、記憶部9のテーブル情報に基づいて、分類部7により分類された発話パターン「回答パターン」に対応する「後続発話の言語情報」(冒頭発話の品詞、単語数、文節数など)の特徴ベクトルを算出する。
図5に示す如く、1つの発話パターンに複数の特徴量の種類に関する情報が対応付けられていてもよい。例えば、発話パターン「Wh質問パターン」には、先行発話の韻律情報及び先行発話の言語情報が対応付けられている。この場合、特徴量算出部8は、記憶部9のテーブル情報に基づいて、分類部7により分類された発話パターン「Wh質問パターン」に対応する、「先行発話の韻律情報」の特徴ベクトルと、「先行発話の言語情報」の特徴ベクトルと、を夫々算出し、これら特徴ベクトルを統合した特徴ベクトルを算出する。
ここで、後続発話の言語情報に基づいた処理は、後続であり構文解析を行うため、処理負荷が高くリードタイムが大きくなる(5秒程度)。同様に、先行発話の言語情報に基づいた処理も、構文解析を行うため、処理負荷が高くリードタイムが大きくなる(4秒程度)。これらの高処理負荷によって対話のリズムや自然性が低下する虞がある。このため可能であれば先行発話の韻律情報のみに基づいた処理が好ましい。しかし、適切なフィラー語を生成するためには言語情報を利用した方が良い場合もある。
したがって、本実施形態においては、処理負荷の軽減と適切なフィラー語の生成との両立を図るように、テーブル情報において、「韻律情報」及び「言語情報」の対応付けを行っている。これにより、処理負荷の軽減と適切なフィラー語の生成との両立を図り、対話のリズム及び自然性を向上させることができる。
上述の如く、発話の特徴量は、言語情報における言語的特徴(品詞列等)と、韻律情報における音響的特徴(ピッチ等)と、に大別することができる。言語的特徴は、上述の如く、処理負荷が高く出力に時間がかかる。このため、本実施形態においては、主として音響的特徴を用いつつ、適宜、言語的特徴を用いている。これにより発話の特徴を効果的に捉え最適なフィラー語を生成しつつ、同時に処理負荷の軽減を図ることができる。
フィラー生成部5は、特徴量算出部8により算出された特徴量に基づいて、フィラー語を生成する。フィラー生成部5は、例えば、予め設定されたフィラー形態情報を用いて、フィラー語を生成する。
フィラー形態情報は、例えば、記憶部9などに予め設定されている。フィラー形態情報において、例えば、図6に示す、フィラー語の各系統「以下、フィラー系」に特徴量がそれぞれ対応付けられている。フィラー系は、固有系、応答詞系、指示詞系、副詞系、気づき系、その他、なし、などを含む。
各フィラー系には、単数あるいは複数のフィラー語が対応付けられている。例えば、固有系には、フィラー語「えっと」、「えー」などが対応付けられている。各フィラー系と特徴量とは、決定木の組み合わせのような構造をもつRandom forestなどの学習器を用いて、対応付けられるのが好ましい。なお、ロジスティック回帰などの学習器を用いてもよく、任意の学習器を用いることができる。
フィラー生成部5は、特徴量算出部8により算出された特徴量と、記憶部9のフィラー形態情報と、に基づいて、算出された特徴量に対応付けられたフィラー系を選択し、さらに、該フィラー系の中から1つのフィラー語を選択することで、フィラー語を生成する。これにより、対話シーンの特徴を示す特徴量を用いて、その対話シーンに合わせたフィラー形態を選択でき、選択したフィラー形態を基づいて最適なフィラー語を生成できる。
フィラー生成部5は、例えば、選択したフィラー系の中から1つのフィラー語をランダムに選択する。フィラー生成部5は、選択したフィラー系の中から、所定の優先順位に従って、1つのフィラー語を選択してもよく、選択方法は任意でよい。
フィラー生成部5は、特徴量算出部8により算出された特徴量と、記憶部9のフィラー形態情報と、に基づいて、7種類のフィラー系の中から、特徴量に対応付けられ1つのフィラー系を選択しているが、これに限定されない。フィラー生成部5は、分類部7により分類された発話パターンに基づいて、フィラー系の数を絞り込み、絞り込んだ各フィラー系の中から、特徴量に対応付けられ1つのフィラー系を選択し、フィラー語を生成してもよい。このように、事前にフィラー系の数を絞り込むことで、さらに処理負荷を軽減することができる。
例えば、発話パターンが「回答」である場合、必然的に、それに対する最適なフィラー系は、予め4種類のフィラー系(固有系、副詞系、その他、なし)に絞り込むことができる。したがって、フィラー生成部5は、分類部7により分類された発話パターン「回答」に基づいて、7種類のフィラー系を4種類のフィラー系(固有系、副詞系、その他、なし)に絞り込み、絞り込んだフィラー系の中から、特徴量に対応付けられた1つのフィラー系を選択し、フィラー語を生成する。例えば、発話パターンに、絞り込んだフィラー系を対応づけた情報が記憶部9などに設定されている。フィラー生成部5は、記憶部9のこの情報に基づいて、上記フィラー系の絞り込みを行ってもよい。
フィラー生成部5は、特徴量算出部8により算出された特徴量と、記憶部9のフィラー形態情報と、に基づいて、1つのフィラー系「なし」を選択した場合、フィラー語を生成しない。この場合、フィラー語は出力されない。これは、フィラー語を出力しないことがその対話のシーンに合っているという意味である。
フィラー生成部5は、上述のように生成したフィラー語を音声出力部6に出力する。音声出力部6は、例えば、フィラー生成部5により生成された時刻T+2のフィラー語を出力し、応答文生成部4により生成された時刻T+3の応答文を出力する。
図7は、本実施形態に係る音声対話装置の処理方法のフローを示すフローチャートである。
分類部7は、記憶部9のテーブル情報に基づいて、応答文生成部により生成された第1の応答文を、テーブル情報に設定された発話パターンのうちのいずれかに分類する(ステップS101)。
特徴量算出部8は、分類部7により分類された発話パターンと、記憶部9のテーブル情報と、に基づいて、分類された発話パターンに対応する特徴量の種類の特徴ベクトルを算出する(ステップS102)。
フィラー生成部5は、特徴量算出部8により算出された特徴ベクトルと、記憶部9のフィラー形態情報と、に基づいて、フィラー形態情報に設定された複数のフィラー系の中から、1つのフィラー系を選択し、さらに、該フィラー系の中からフィラー語を選択することで、フィラー語を生成する(ステップS103)。
音声出力部6は、フィラー生成部5により生成されたフィラー語を出力する(ステップS104)。
以上、本実施形態に係る音声対話装置1は、応答文生成部4により生成された応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する分類部7を備えている。音声出力部6が、第1の応答文に続くユーザの音声後、フィラー語を出力し、第2の応答文を出力する。この場合において、分類部7は、第1の応答文を、発話パターンのうちのいずれかに分類する。フィラー生成部5は、分類部7により分類された発話パターンに基づいて、フィラー語を生成する。
第1の応答文の発話パターンに応じてフィラー語を生成することで、その後のユーザの音声内容に対応した、最適なフィラー語を生成することができる。この最適なフィラー語を出力することで、より自然な対話を行うことができる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
上記実施形態において、出力手段として、音声を出力する音声出力部6が適用されているが、これに限定されない。出力手段として、例えば、文字を出力する表示部が適用されてもよい。
本発明は、例えば、図7に示す処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1 音声対話装置、2 音声認識部、3 構文解析部、4 応答文生成部、5 フィラー生成部、6 音声出力部、7 分類部、8 特徴量算出部、9 記憶部

Claims (6)

  1. ユーザの音声を認識する音声認識手段と、
    前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、
    前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、
    前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、
    を備える音声対話装置であって、
    前記応答文生成手段により生成された応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する分類手段を備え、
    前記出力手段が、第1の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第2の前記応答文を出力する場合において、
    前記分類手段は、前記第1の応答文を、前記発話パターンのうちのいずれかに分類し、
    前記フィラー生成手段は、前記分類手段により分類された発話パターンに基づいて、前記フィラー語を生成する、
    ことを特徴とする音声対話装置。
  2. 請求項1記載の音声対話装置であって、
    前記発話パターンと、該発話パターンに対応付けられた特徴量の種類に関する情報と、を含むテーブル情報を記憶する記憶手段と、
    前記分類手段により分類された発話パターンに対応付けられた特徴量の種類に関する情報に基づいて、先行又は後続の発話の特徴量を算出する特徴量算出手段と、
    を更に備え、
    前記フィラー生成手段は、前記特徴量算出手段により算出された特徴量に基づいて、前記フィラー語を生成する、
    を特徴とする音声対話装置。
  3. 請求項2記載の音声対話装置であって、
    前記特徴量の種類に関する情報は、先行発話の韻律情報、先行発話の言語情報、後続発話の言語情報、及び、後続発話の韻律情報のうち少なくとも1つを含む、
    ことを特徴とする音声対話装置。
  4. 請求項2又は3記載の音声対話装置であって、
    前記記憶手段は、少なくとも1つの前記フィラー語を含み該フィラー語の系統を示すフィラー系に特徴量がそれぞれ対応付けられたフィラー形態情報を記憶しており、
    前記フィラー生成手段は、前記分類手段により分類された発話パターンに基づいて、前記フィラー系の数を絞り込み、該絞り込んだフィラー系の中から、前記特徴量算出手段により算出された特徴量に対応付けられ1つのフィラー系を選択し、該選択したフィラー系に含まれる前記フィラー語を選択することで、前記フィラー語を生成する、
    ことを特徴とする音声対話装置。
  5. ユーザの音声を認識する音声認識手段と、
    前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、
    前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、
    前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置の処理方法であって、
    前記出力手段が、第1の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第2の前記応答文を出力する場合において、
    前記第1の応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類するステップと、
    前記分類された発話パターンに基づいて、前記フィラー語を生成するステップと、
    を含む
    ことを特徴とする音声対話装置の処理方法。
  6. ユーザの音声を認識する音声認識手段と、
    前記音声認識手段により認識された音声に基づいて、前記ユーザの音声に対する応答文を生成する応答文生成手段と、
    前記ユーザとの対話間に挿入するフィラー語を生成するフィラー生成手段と、
    前記応答文生成手段により生成された応答文及び前記フィラー生成手段により生成されたフィラー語を出力する出力手段と、を備える音声対話装置のプログラムであって、
    前記出力手段が、第1の前記応答文に続く前記ユーザの音声後、前記フィラー語を出力し、第2の前記応答文を出力する場合において、
    前記第1の応答文を、予め設定され発話の種類を示す所定の発話パターンのうちのいずれかに分類する処理と、
    前記分類された発話パターンに基づいて、前記フィラー語を生成する処理と、
    をコンピュータに実行させることを特徴とする音声対話装置のプログラム。
JP2017040580A 2017-03-03 2017-03-03 音声対話装置、その処理方法及びプログラム Active JP6696923B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017040580A JP6696923B2 (ja) 2017-03-03 2017-03-03 音声対話装置、その処理方法及びプログラム
US15/883,240 US10452352B2 (en) 2017-03-03 2018-01-30 Voice interaction apparatus, its processing method, and program
EP18155702.6A EP3370230B1 (en) 2017-03-03 2018-02-08 Voice interaction apparatus, its processing method, and program
CN201810175617.5A CN108630203B (zh) 2017-03-03 2018-03-02 语音交互设备及其处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017040580A JP6696923B2 (ja) 2017-03-03 2017-03-03 音声対話装置、その処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018146715A JP2018146715A (ja) 2018-09-20
JP6696923B2 true JP6696923B2 (ja) 2020-05-20

Family

ID=61188655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017040580A Active JP6696923B2 (ja) 2017-03-03 2017-03-03 音声対話装置、その処理方法及びプログラム

Country Status (4)

Country Link
US (1) US10452352B2 (ja)
EP (1) EP3370230B1 (ja)
JP (1) JP6696923B2 (ja)
CN (1) CN108630203B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019988B1 (en) * 2016-06-23 2018-07-10 Intuit Inc. Adjusting a ranking of information content of a software application based on feedback from a user
JP6633008B2 (ja) * 2017-02-01 2020-01-22 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
JP6696923B2 (ja) * 2017-03-03 2020-05-20 国立大学法人京都大学 音声対話装置、その処理方法及びプログラム
US11979360B2 (en) 2018-10-25 2024-05-07 Microsoft Technology Licensing, Llc Multi-phrase responding in full duplex voice conversation
JP7135896B2 (ja) * 2019-01-28 2022-09-13 トヨタ自動車株式会社 対話装置、対話方法及びプログラム
CN110019149A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种客服知识库的建立方法、装置及设备
CN110232190A (zh) * 2019-06-14 2019-09-13 上海流利说信息技术有限公司 一种对话生成的方法、装置、存储介质及电子设备
CN110827821B (zh) * 2019-12-04 2022-04-12 三星电子(中国)研发中心 一种语音交互装置、方法和计算机可读存储介质
WO2021112642A1 (en) 2019-12-04 2021-06-10 Samsung Electronics Co., Ltd. Voice user interface
CN112022140B (zh) * 2020-07-03 2023-02-17 上海数创医疗科技有限公司 一种心电图的诊断结论自动诊断方法及系统
CN112328776A (zh) * 2021-01-04 2021-02-05 北京百度网讯科技有限公司 对话生成方法、装置、电子设备和存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010012335A1 (en) * 1998-02-06 2001-08-09 Lance Kaufman Preference based telecommunication information service
JP3581881B2 (ja) * 2000-07-13 2004-10-27 独立行政法人産業技術総合研究所 音声補完方法、装置および記録媒体
US8355484B2 (en) * 2007-01-08 2013-01-15 Nuance Communications, Inc. Methods and apparatus for masking latency in text-to-speech systems
JP5136512B2 (ja) 2009-05-08 2013-02-06 トヨタ自動車株式会社 応答生成装置及びプログラム
JP2014048443A (ja) 2012-08-31 2014-03-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、音声合成方法及び音声合成プログラム
US9576574B2 (en) * 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
JP5753869B2 (ja) 2013-03-26 2015-07-22 富士ソフト株式会社 音声認識端末およびコンピュータ端末を用いる音声認識方法
JP6024675B2 (ja) * 2014-01-17 2016-11-16 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP5958475B2 (ja) * 2014-01-17 2016-08-02 株式会社デンソー 音声認識端末装置、音声認識システム、音声認識方法
JP6390264B2 (ja) * 2014-08-21 2018-09-19 トヨタ自動車株式会社 応答生成方法、応答生成装置及び応答生成プログラム
JP6495014B2 (ja) 2015-01-08 2019-04-03 シャープ株式会社 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置
CN105893344A (zh) * 2016-03-28 2016-08-24 北京京东尚科信息技术有限公司 基于用户语义情感分析的应答方法和装置
JP6736691B2 (ja) * 2016-06-13 2020-08-05 グーグル エルエルシー 人間のオペレータへのエスカレーション
JP6461058B2 (ja) * 2016-09-06 2019-01-30 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
JP6633008B2 (ja) * 2017-02-01 2020-01-22 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法
JP6696923B2 (ja) * 2017-03-03 2020-05-20 国立大学法人京都大学 音声対話装置、その処理方法及びプログラム

Also Published As

Publication number Publication date
US10452352B2 (en) 2019-10-22
CN108630203A (zh) 2018-10-09
US20180253280A1 (en) 2018-09-06
EP3370230A1 (en) 2018-09-05
EP3370230B1 (en) 2023-05-10
CN108630203B (zh) 2022-12-20
JP2018146715A (ja) 2018-09-20

Similar Documents

Publication Publication Date Title
JP6696923B2 (ja) 音声対話装置、その処理方法及びプログラム
US10861458B2 (en) Response sentence generation apparatus, method and program, and voice interaction system
US20210174785A1 (en) Training and testing utterance-based frameworks
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
US20220180872A1 (en) Electronic apparatus and method for controlling thereof
JP2018124425A (ja) 音声対話装置及び音声対話方法
JP7059813B2 (ja) 音声対話システム、その処理方法及びプログラム
EP2988298B1 (en) Response generation method, response generation apparatus, and response generation program
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
US10825455B2 (en) Voice dialogue apparatus, voice dialogue method, and non-transitory computer readable media
JP2019211515A (ja) 音声対話システム、その処理方法及びプログラム
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
JP6295869B2 (ja) 応答生成装置、応答生成方法及びプログラム
JP2016080981A (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム
JP2015148712A (ja) 音声対話装置、音声対話システム及びプログラム
JP6773074B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
KR102458830B1 (ko) 사용자 중심의 음성 대화 시스템
Gupta et al. DIS-NV Functions for the Recognition of Emotions in Spoken Dialogue

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181010

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200423

R150 Certificate of patent or registration of utility model

Ref document number: 6696923

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250