JP2012173432A - 音声対話装置および音声対話方法 - Google Patents
音声対話装置および音声対話方法 Download PDFInfo
- Publication number
- JP2012173432A JP2012173432A JP2011033898A JP2011033898A JP2012173432A JP 2012173432 A JP2012173432 A JP 2012173432A JP 2011033898 A JP2011033898 A JP 2011033898A JP 2011033898 A JP2011033898 A JP 2011033898A JP 2012173432 A JP2012173432 A JP 2012173432A
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- response sentence
- system response
- score
- independent word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
正確な情報であるシステム応答文中の自立語と認識結果中の自立語を用いて共起を生成することで、システム応答文の生成に利用される共起の信頼度を向上させることである。
【解決手段】
実施形態の音声対話装置は、第1のシステム応答文に対するユーザの発声を認識する音声認識手段と、前記音声認識手段で得られた認識結果を形態素解析する形態素解析手段と、前記形態素解析手段で得られた前記認識結果中の自立語と前記第1のシステム応答文中の自立語の共起を生成する共起生成手段と、自立語の共起および当該共起の共起スコアを記憶した共起辞書と、前記共起辞書を用いて、前記共起生成手段で生成された共起に共起スコアを付与する共起スコア付与手段と、前記共起スコア付与手段で付与された共起スコアを利用して、第2のシステム応答文を生成する応答文生成手段とを備える。
【選択図】図1
Description
第1の実施形態の音声対話装置は、音声認識を用いてユーザと音声で対話する音声対話装置である。この音声対話装置は、ユーザ発声に対する認識誤りを回避するために、先に提示した第1のシステム応答文中の自立語と当該第1のシステム応答文に対するユーザ発声の認識結果中の自立語の共起を生成する。そして、当該共起の共起スコアが最も高くなる共起における認識結果中の自立語を利用して、ユーザ発声に応答するための第2のシステム応答文を生成する。このように、正確な情報を持つ(認識誤りを含まない)システム応答文中の自立語を用いて共起を生成することで、生成される共起の信頼度を向上させることができる。また、信頼度が高い共起を利用してシステム応答文を生成することにより、誤認識により対話が意図しない方向に進んでしまうことを防止する。
図1は、第1の実施形態にかかる音声対話装置を示すブロック図である。本実施形態の音声対話装置は、ユーザの発声を認識する音声認識部100と、ユーザに提示するシステム応答文を生成するシステム応答文生成部101と、システム応答文生成部101で生成されたシステム応答文を音声波形に変換する音声合成部107とを備える。ここで、システム応答文生成部101は、先に提示された第1のシステム応答文に対するユーザ発声の認識結果を受けて、次に提示する第2のシステム応答文を生成する。
本実施形態の音声対話装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成されており、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付けるキーボードやマウスなどの操作部204と、外部装置との通信を制御する通信部205と、ユーザの発声を取得するマイク206と、音声波形を再生して再生音を発生させるスピーカ207と、これらを接続するバス208とを備えている。
音声認識部100は、システム応答文に対するユーザの発声をマイク206で取得して音声認識する。本実施形態では、認識結果としてユーザ発声を認識して得られたテキストと当該テキストの認識尤度を取得する。なお、音声認識の開始は、操作部204の所定ボタンで指示することができる。
cosine係数=自立語ABの共起頻度/√(自立語Aの頻度*自立語Bの頻度)
Jaccard係数=自立語ABの共起頻度/((自立語Aの頻度+自立語Bの頻度-自立語ABの共起頻度)/2)
dice係数=自立語ABの共起頻度/((自立語Aの頻度+自立語Bの頻度)/2)
共起スコアは、上記の係数のように自立語Aと自立語Bが組み合わせて使用される頻度が表現された指標であればよい。また、共起辞書105を、通信部205を介して接続された外部サーバの記憶部に保持するようにしてもよい。
図3のフローチャートを利用して、本実施形態にかかる音声対話装置の処理を説明する。まず、音声対話装置は、音声対話を開始するためのシステム応答文を音声合成部107で音声波形に変換してスピーカ207から再生する(ステップS31)。ここでは、先に提示するシステム応答文として、「京都は何がいいの?」が再生されたものとする。
このように、本実施形態にかかる音声対話装置は、正確な情報であるシステム応答文中の自立語と認識結果中の自立語を用いて共起を生成している。これにより、システム応答文の生成に利用される共起の信頼度を向上させることができる。
第1の実施形態では、自立語の基本形を用いて共起を生成したが、自立語の読みを用いて共起を生成することもできる。システム応答文「京都は何がいいの?」に対するユーザ発声「紅葉がとてもいいと思います」を認識した結果、漢字の割り当てに失敗した「効用がとてもいいと思います」という認識結果が得られたとする。図6は、形態素解析部102での形態素解析結果を表している。
共起辞書105は、複数の自立語からなる共起を含む辞書であるためサイズが膨大になり、共起スコア付与部104における検索時間が長くなることがある。検索時間を短くするためには、必要のない共起を共起辞書105から排除する必要がある。
idfが低い自立語は、どのような文でもまんべんなく使われる自立語である。そこで、idfが所定の閾値より低い自立語を含む共起を共起辞書105から予め除外しておくことで検索時間の短縮を図ることができる。
システム応答文中の自立語と認識結果中の自立語から共起を生成するためには、それぞれの文章に自立語が含まれる必要がある。認識結果は音声対話装置が制御することはできないが、システム応答文は制御可能である。そこで、システム応答文に自立語を多く含ませることにより、共起生成部103で生成される共起を増やすことができる。これにより、有効な共起が生成される可能性を高めることができる。例えば、「京都は何がいいの?」という文章には「京都」「いい」という2つの自立語しか含まれないが、「京都のお勧めの観光地は何?」には「京都」「お勧め」「観光地」という3つの自立語が含まれるので、こちらの方が好ましい。
認識結果中の自立語との関係において有効な共起を生成するため、システム応答文は共起スコアが高い共起に含まれる自立語を多く含む方が好ましい。例えば、自立語「する」を含む共起の共起スコアの平均が0.0001であり、自立語「行く」を含む共起の共起スコアの平均が0.0020である場合を考える。「京都では何をしたの?」には「京都」「する」という自立語が含まれ、「京都ではどこに行ったの?」には「京都」「行く」という自立語が含まれる。自立語「する」よりも自立語「行く」の方が共起スコアの平均が高く、認識結果中の自立語との関係において有効な共起が生成される可能性が高い。したがって、「京都ではどこに行ったの?」をシステム応答文として選択する。
本実施形態では、形態素解析部102は、システム応答文に対しても形態素解析を行ったが、当該システム応答文中に含まれる単語の表層語、基本形、読み、品詞などが予め分かっている場合は、認識結果のみを形態素解析するようにしてもよい。
101 システム応答文生成部
102 形態素解析部
103 共起生成部
104 共起スコア付与部
105 共起辞書
106 応答文生成部
107 音声合成部
108 発話文データベース
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 マイク
207 スピーカ
208 バス
Claims (11)
- 第1のシステム応答文に対するユーザの発声を認識する音声認識手段と、
前記音声認識手段で得られた認識結果を形態素解析する形態素解析手段と、
前記形態素解析手段で得られた前記認識結果中の自立語と前記第1のシステム応答文中の自立語の共起を生成する共起生成手段と、
自立語の共起および当該共起の共起スコアを記憶した共起辞書と、
前記共起辞書を用いて、前記共起生成手段で生成された共起に共起スコアを付与する共起スコア付与手段と、
前記共起スコア付与手段で付与された共起スコアを利用して、第2のシステム応答文を生成する応答文生成手段と、
を備える音声対話装置。 - 前記形態素解析手段が、前記第1のシステム応答文を更に形態素解析し、
前記共起生成手段が、前記形態素解析手段で得られた第1のシステム応答文中の自立語と前記認識結果中の自立語の共起を生成する請求項1記載の音声対話装置。 - 前記応答文生成手段が、前記共起スコア付与手段で付与された共起スコアが最も高くなる共起における前記認識結果中の自立語を利用して、ユーザに提示する第2のシステム応答文を生成する請求項1乃至請求項2記載の音声対話装置。
- 前記共起生成手段が、前記第1のシステム応答文中の自立語と、前記認識結果中の自立語の読みの共起を生成し、
前記共起辞書が、自立語の共起および当該共起の共起スコアに加えて、当該自立語の読みを記憶し、
前記共起スコア付与手段が、前記共起辞書を用いて、前記共起生成手段で生成された共起と同様な読みを持つ共起を検索すると共に当該検索された共起に共起スコアを付与し、
前記応答文生成手段が、前記共起スコア付与手段で付与された共起スコアが最も高くなる共起を利用して、ユーザに提示する第2のシステム応答文を生成する請求項1乃至請求項2記載の音声対話装置。 - 前記共起辞書に記憶された共起および当該共起の共起スコアが、テキスト情報を利用して予め学習される請求項1から請求項4の何れか1項に記載の音声対話装置。
- 前記共起辞書に記憶された共起を構成する自立語の前記テキスト情報での出現頻度が、予め決められた閾値より低い請求項5記載の音声対話装置。
- 前記共起辞書に記憶された共起を構成する自立語の前記テキスト情報でのidfが、予め決められた閾値より大きい請求項5記載の音声対話装置。
- 前記応答文生成手段が、システム応答文中の自立語の数に応じて、前記ユーザに提示する第2のシステム応答文を生成する請求項1から請求項7の何れか1項に記載の音声対話装置。
- 前記応答文生成手段が、システム応答文中の自立語を含む共起の共起スコアに応じて、前記ユーザに提示する第2のシステム応答文を生成する請求項1から請求項8の何れか1項に記載の音声対話装置。
- 第1のシステム応答文に対するユーザの発声を認識する音声認識工程と、
前記音声認識工程で得られた認識結果を形態素解析する形態素解析工程と、
前記形態素解析工程で得られた前記認識結果中の自立語と前記第1のシステム応答文中の自立語の共起を生成する共起生成工程と、
自立語の共起および当該共起の共起スコアを記憶した共起辞書を用いて、前記共起生成工程で生成された共起に共起スコアを付与する共起スコア付与工程と、
前記共起スコア付与工程で付与された共起スコアを利用して、ユーザに提示する第2のシステム応答文を生成する応答文生成工程と、
を備える音声対話方法。 - 前記形態素解析工程が、前記第1のシステム応答文を更に形態素解析し、
前記共起生成工程が、前記形態素解析工程で得られた第1のシステム応答文中の自立語と前記認識結果中の自立語の共起を生成する請求項10記載の音声対話方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011033898A JP5636309B2 (ja) | 2011-02-18 | 2011-02-18 | 音声対話装置および音声対話方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011033898A JP5636309B2 (ja) | 2011-02-18 | 2011-02-18 | 音声対話装置および音声対話方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012173432A true JP2012173432A (ja) | 2012-09-10 |
JP5636309B2 JP5636309B2 (ja) | 2014-12-03 |
Family
ID=46976405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011033898A Expired - Fee Related JP5636309B2 (ja) | 2011-02-18 | 2011-02-18 | 音声対話装置および音声対話方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5636309B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598112A (zh) * | 2014-07-18 | 2019-04-09 | 谷歌有限责任公司 | 利用协同定位信息的发言人验证 |
WO2020213767A1 (ko) * | 2019-04-19 | 2020-10-22 | 엘지전자 주식회사 | 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체 |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109323A (ja) * | 2002-09-17 | 2004-04-08 | Denso Corp | 音声対話装置及びプログラム |
JP2004354787A (ja) * | 2003-05-30 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 統計情報を用いた対話方法及びその装置と、対話プログラム及びそのプログラムを記録した記録媒体 |
JP2006209022A (ja) * | 2005-01-31 | 2006-08-10 | Toshiba Corp | 情報検索システム、方法及びプログラム |
JP2008180801A (ja) * | 2007-01-23 | 2008-08-07 | Kyushu Institute Of Technology | 自動回答装置および方法 |
-
2011
- 2011-02-18 JP JP2011033898A patent/JP5636309B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109323A (ja) * | 2002-09-17 | 2004-04-08 | Denso Corp | 音声対話装置及びプログラム |
JP2004354787A (ja) * | 2003-05-30 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 統計情報を用いた対話方法及びその装置と、対話プログラム及びそのプログラムを記録した記録媒体 |
JP2006209022A (ja) * | 2005-01-31 | 2006-08-10 | Toshiba Corp | 情報検索システム、方法及びプログラム |
JP2008180801A (ja) * | 2007-01-23 | 2008-08-07 | Kyushu Institute Of Technology | 自動回答装置および方法 |
Non-Patent Citations (1)
Title |
---|
松本 宗也: "発話間単語共起関係に基づく補正信頼度を用いた音声認識", 言語処理学会第12回年次大会発表論文集, JPN6014039423, 13 March 2006 (2006-03-13), JP, pages 28 - 31, ISSN: 0002900995 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109598112A (zh) * | 2014-07-18 | 2019-04-09 | 谷歌有限责任公司 | 利用协同定位信息的发言人验证 |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
WO2020213767A1 (ko) * | 2019-04-19 | 2020-10-22 | 엘지전자 주식회사 | 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체 |
US11361765B2 (en) | 2019-04-19 | 2022-06-14 | Lg Electronics Inc. | Multi-device control system and method and non-transitory computer-readable medium storing component for executing the same |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
Also Published As
Publication number | Publication date |
---|---|
JP5636309B2 (ja) | 2014-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489393B1 (en) | Quasi-semantic question answering | |
KR102101044B1 (ko) | 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법 | |
JP6819988B2 (ja) | 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム | |
JP5620349B2 (ja) | 対話装置、対話方法および対話プログラム | |
US7949532B2 (en) | Conversation controller | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
US10713289B1 (en) | Question answering system | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
JPWO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
US10970470B1 (en) | Compression of machine learned models | |
US20080027725A1 (en) | Automatic Accent Detection With Limited Manually Labeled Data | |
US10553203B2 (en) | Training data optimization for voice enablement of applications | |
JP5073024B2 (ja) | 音声対話装置 | |
US20150178274A1 (en) | Speech translation apparatus and speech translation method | |
Ciobanu et al. | Speech recognition and synthesis technologies in the translation workflow | |
JP5636309B2 (ja) | 音声対話装置および音声対話方法 | |
KR102106797B1 (ko) | 복합 문장 분석 장치, 이를 위한 기록매체 | |
JP6067616B2 (ja) | 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム | |
Rezazadegan et al. | Symbolic and statistical learning approaches to speech summarization: A scoping review | |
KR20200101891A (ko) | 복합 문장 분석 장치, 이를 위한 기록매체 | |
JP2009198871A (ja) | 音声対話装置 | |
Zhou et al. | Using paralinguistic information to disambiguate user intentions for distinguishing phrase structure and sarcasm in spoken dialog systems | |
KR102147670B1 (ko) | 복합 문장 분석 장치, 이를 위한 기록매체 | |
US11900072B1 (en) | Quick lookup for speech translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141020 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5636309 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |