JP6126870B2 - 音声対話システム及び音声対話方法 - Google Patents

音声対話システム及び音声対話方法 Download PDF

Info

Publication number
JP6126870B2
JP6126870B2 JP2013040742A JP2013040742A JP6126870B2 JP 6126870 B2 JP6126870 B2 JP 6126870B2 JP 2013040742 A JP2013040742 A JP 2013040742A JP 2013040742 A JP2013040742 A JP 2013040742A JP 6126870 B2 JP6126870 B2 JP 6126870B2
Authority
JP
Japan
Prior art keywords
reliability
attribute
database
response
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013040742A
Other languages
English (en)
Other versions
JP2014170047A (ja
Inventor
幹生 中野
幹生 中野
和範 駒谷
和範 駒谷
嗣巳 大塚
嗣巳 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Nagoya University NUC
Tokai National Higher Education and Research System NUC
Original Assignee
Honda Motor Co Ltd
Nagoya University NUC
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Nagoya University NUC, Tokai National Higher Education and Research System NUC filed Critical Honda Motor Co Ltd
Priority to JP2013040742A priority Critical patent/JP6126870B2/ja
Priority to US14/190,505 priority patent/US9330656B2/en
Publication of JP2014170047A publication Critical patent/JP2014170047A/ja
Application granted granted Critical
Publication of JP6126870B2 publication Critical patent/JP6126870B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、ユーザの音声入力に対する応答を作成してユーザとの対話を行う音声対話システム及び音声対話方法に関する。
ユーザとの対話を行う際に、音声対話システムが、ユーザの発話の中の固有名詞の属性を定めるのは重要な作業である。ここでは、一例として、ある地域のレストランについて、ユーザが固有名詞を含む発話を行い、音声対話システムが、居酒屋、中華、カフェなどレストランの属性(ジャンル)を定める場合について説明する。最初に、以下の二つの対話例について考察する。
第1の対話例
ユーザ:「とよ」について教えて
システム:「そのお店は知らないので覚えておきます。そのお店のジャンルはなんですか?」
第2の対話例
ユーザ:「オステリアリュウ」について教えて
システム:「そのお店は知らないので覚えておきます。そのお店って多分イタリアンのお店ですよね?」
第1の対話例で、音声対話システムは何も推定せず、単純な質問を行っている。この場合、ユーザの応答には何の制限もないので、ユーザが新たな未知語を発話する可能性がある。これに対して、第2の対話例の音声対話システムの質問に対して、ユーザの応答は肯定または否定表現に絞られる。このように、音声対話システムが、可能な範囲で内容を推定した後により具体的な質問を行うことにより、ユーザとの対話の効率を向上させることができる。すなわち、音声対話システムが、ユーザの発話の中の固有名詞に対して、その属性を推定し適切な応答を作成することにより、対話の効率を向上させることが期待される。
通常、固有名詞から属性を推定する場合には、データベース、この場合には、その地域のレストランのデータベースを使用する。しかし、ユーザの発話の中の固有名詞が該データベースに含まれないことも考えられる。そこで、属性を定める際にウェブの情報を使用することもおこなわれている(たとえば、非特許文献1、非特許文献2)。
山本あゆみ、佐藤理史.ワールドワイドウェブからの人物情報の自動収集.電子情報通信学会技術研究報告.AI、人工知能と知識処理、Vol.99,No.534,pp.93-100,2000 吉永直樹、鳥澤健太郎.Webからの具体物の属性・属性地情報の自動獲得.言語処理学会第13回年次大会発表論文、2007
しかし、ユーザとの対話の効率を向上させるように、ユーザの発話の中の固有名詞の属性の推定結果に基づいて応答を作成する音声対話システム及び音声対話方法は開発されていない。そこで、ユーザとの対話の効率を向上させるように、ユーザの発話の中の固有名詞の属性の推定結果に基づいて応答を作成する音声対話システム及び音声対話方法に対するニーズがある。
本発明の第1の態様による音声対話システムは、データベースを利用して、入力された固有名詞の属性を推定するデータベース属性推定部と、ウェブを利用して、入力された固有名詞の属性を推定するウェブ属性推定部と、所定の属性に対して、該データベース属性推定部による推定の第1の信頼度と該ウェブ属性推定部による推定の第2の信頼度とを統合して統合信頼度を求める信頼度統合部と、属性の候補に対して、該属性の候補の統合信頼度に基づいて、入力に対する応答を作成する応答作成部と、を備えている。
本態様によれば、固有名詞の属性の候補に対して、データベースに基づく推定の第1の信頼度とウェブに基づく推定の第2の信頼度とを統合して求めた統合信頼度に基づいて、入力に対する応答を作成するので、ユーザとの対話の効率を向上させることができる。
第1の態様の第1の実施形態の音声対話システムは、前記応答作成部が、属性の候補を統合信頼度の高い順に並べ、統合信頼度の高い方からの和を求め、該和が所定の閾値を超える最小の候補数を求め、該最小の候補数にしたがって応答を作成するように構成されている。
本実施形態によれば、統合信頼度の高さに応じて、属性の候補数を絞って応答を作成するので、ユーザとの対話の効率を向上させることができる。
第1の態様の第2の実施形態の音声対話システムは、前記信頼度統合部が、第1の信頼度と第2の信頼度との重み付和によって統合信頼度を求めるように構成されている。
本実施形態によれば、異なる情報に基づく第1の信頼度と第2の信頼度との重み付和によって統合信頼度を求めることにより、推定の正解率を向上させることができる。
第1の態様の第3の実施形態の音声対話システムは、前記データベース属性推定部が、前記データベース属性推定部が、固有名詞の素性と属性との相互情報量に基づいて選択された素性を使用するように構成されている。
本実施形態によれば、前記データベース属性推定部の過学習を避けることができる。
本発明の第2の態様による音声対話方法は、データベースを利用して、入力された固有名詞の属性を推定するステップと、ウェブを利用して、入力された固有名詞の属性を推定するステップと、所定の属性に対して、データベースに基づく推定の第1の信頼度とウェブに基づく推定の第2の信頼度とを統合して統合信頼度を求めるステップと、属性の候補に対して、該属性の候補の統合信頼度に基づいて、入力に対する応答を作成するステップと、を含む。
本態様によれば、固有名詞の属性の候補に対して、データベースに基づく推定の第1の信頼度とウェブに基づく推定の第2の信頼度とを統合して求めた統合信頼度に基づいて、入力に対する応答を作成するので、ユーザとの対話の効率を向上させることができる。
本発明の一実施形態による音声対話システムの構成を示す図である。 音声対話システムの動作を説明するための流れ図である。 応答作成部が、統合信頼度に基づいて応答分を作成する手順を説明するための流れ図である。 CMスコア別の正解率を示す図である。
図1は、本発明の一実施形態による音声対話システム100の構成を示す図である。音声対話システム100は、ウェブを利用して入力された固有名詞の属性を推定するウェブ属性推定部101と、データベースを利用して入力された固有名詞の属性を推定するデータベース属性推定部103と、所定の属性に対して、データベース属性推定部103による推定の第1の信頼度とウェブ属性推定部101による推定の第2の信頼度とを統合して統合信頼度を求める信頼度統合部105と、属性の候補に対して、該属性の候補の統合信頼度に基づいて、入力に対する応答を作成する応答作成部107と、を備えている。固有名詞は、音声認識部200から入力される。
図2は、音声対話システム100の動作を説明するための流れ図である。
図2のステップS1010において、音声対話システム100が音声認識部200からユーザの発話の中の固有名詞を受け取る。
図2のステップS1020において、データベース属性推定部103が、データベースを利用して固有名詞である店舗名の、属性であるレストランのジャンルを推定する。データベース内の店舗名
Figure 0006126870
を入力とし、ジャンル
Figure 0006126870
を出力として機械学習により推定を行う。
機械学習には最大エントロピーモデル(以下、MEと呼称する)(Adam L. Berger, Vincent J. Della Pietra, and Stephen A. Della Pietra. A maximum entropy approach to natural language processing. Comput. Linguist., Vol. 22, No. 1, pp. 39-71, March 1996.)を使用する。MEにより求まる事後確率
Figure 0006126870
をデータベース推定における信頼度をCM(g)とし以下の式で表す。
Figure 0006126870
ここで、
Figure 0006126870
はジャンルgと店舗名sに関する素性ベクトルである。
Figure 0006126870
は素性ベクトルに対する重みであり、Zは、
Figure 0006126870
を保証する正規化係数である。
学習データとして、データベース内の店舗名とそのジャンル、店舗名から生成される以下の素性を用いる。
店舗名の文字n−gram(n=1,2,3)
店舗名の形態素列
店舗名の文字の種類
ここで、形態素解析にMecabを使用し、その辞書はIPADICを使用する。文字の種類は、ひらがな、カタカナ、漢字、アルファベットとする。たとえば、「IBカフェ」という店舗の場合、「カタカナ+アルファベット」となる。
素性とジャンルとの相互情報量に基づいて素性を選択するのが好ましい。相互情報量は以下の式で表せる。
Figure 0006126870
ここで、p(f)、p(g)は学習データから作成される素性fとジャンルgのそれぞれの正規確率、p(f,g)は同時確率を表す。I(f;G)のスコア降順の順位から所定の割合(%)の素性のみを使用する。所定の割合については後で説明する。
図2のステップS1030において、ウェブ属性推定部101が、ウェブを利用して固有名詞である店舗名の、属性であるレストランのジャンルを推定する。まず、検索クエリを「<検索店舗名> 地域(たとえば、愛知県) レストラン」とする。つぎにこの検索結果に関して、タグを取り除いたHTMLファイルを取得する。取得したHTMLファイルに対してデータベース内のジャンルgの頻度h(g)を求める。頻度を以下の式により正規化し、ウェブに基づく信頼度CMのスコア降順のリストとして出力する。
Figure 0006126870
図2のステップS1040において、信頼度統合部105が、データベースに基づく信頼度CM、及びウェブに基づく信頼度CMから統合信頼度CMを求める。統合信頼度は、両方の信頼度の重み付き和として求めてもよい。
図2のステップS1050において、応答作成部107が、統合信頼度に基づいて応答分を作成する。
図3は、応答作成部107が、統合信頼度に基づいて応答分を作成する図2のステップS1050の詳細な手順を説明するための流れ図である。
図3のステップS2010において、応答作成部107は、統合信頼度の高い順に属性を並べる。
図3のステップS2020において、応答作成部107は、最も高い統合信頼度が閾値以上であるかどうか判断する。最も高い統合信頼度が閾値以上であれば、ステップS2060に進む。最も高い統合信頼度が閾値未満であれば、ステップS2030に進む。
図3のステップS2030において、応答作成部107は、つぎに高い統合信頼度を加算する。
図3のステップS2040において、応答作成部107は、加算された統合信頼度の数、すなわち属性の候補数が所定値以上であるかどうか判断する。その数が所定値以上であればステップS2060に進む。その数が所定値未満であれば、ステップS2050に進む。
図3のステップS2050において、応答作成部107は、統合信頼度の和が閾値未満であるかどうか判断する。統合信頼度の和が閾値未満であれば、ステップS2030に戻る。統合信頼度の和が閾値以上であれば、ステップS2060に進む。
図3のステップS2060において、応答作成部107は、上述の方法によって求めた属性の候補数によって応答を作成する。属性の候補数は、統合信頼度CM(g)を使用して以下の式によって表せる。
Figure 0006126870
ここで、jは、CM(g)を降順に並べたときの順位を表す。θは図3の流れ図における閾値である。
表1は、属性の候補数numにしたがって作成された応答例を示す表である。
Figure 0006126870
たとえば、num=1、すなわち、第1位のスコアCM(g)だけでθを超えているとき、その候補一つだけを質問項目に含める。このように、属性の候補数numを絞ることによりユーザの応答は限定されるので、属性の候補数numにしたがって応答を作成することにより、ユーザとの対話の効率を向上させることが可能となる。
ここで、上述のデータベースに基づく信頼度及びウェブに基づく信頼度の、正解を示す尺度としての有効性について説明する。
一例としてのある地域のレストランのデータベースの登録店舗数は、2398件である。データベースから400件の店舗を抽出して評価を行った。データベースに基づく推定では、残りの1998件のデータを学習データとした。素性については、相互情報量のスコア降順の上位0.8%に相当する203種類の素性を使用した。CM(g)が最大値となるジャンルと正解ジャンルが一致した場合を正解とした。
ここで、データベースに基づく推定の素性選択について説明する。相互情報量のスコア降順の上位x%として選択された素性に対して、クローズドテストの正解率とオープンテストの正解率とを比較する。ここで、正解率は、CM(g)が最大値となるgと、正解ジャンルが一致した件数を2398件で割った値とする。オープンテストには、対象データベース内の2398件の店舗に対する10分割交差検定を用いた。x=100%のときにクローズドテストの正解率は、100%であるがxが減少するにしたがって減少し、x=0.8%(203種類)のときにクローズとテストの正解率と10分割交差検定の正解率とがほぼ同じになる。そこで、このときに過学習が回避されたと考えてx=0.8%(203種類)の素性を選択することとした。
表2は、データベースに基づく信頼度CM、及びウェブに基づく信頼度CMの値の区間ごとの正解数と失敗数を示す表である。

Figure 0006126870
図4は、CMスコア別の正解率を示す図である。図4の横軸は、CMの区間を表し、縦軸は、各CM区間内の正解率=正解数/(正解数+失敗数)を表す。図4のCM、及びCMの両方においてグラフが右肩上がりであること、及び表2の結果から、CMが政界の尺度として有効であると確認できる。
表2においてCMは0.5乃至1.0の範囲に正解の多くが分布しているのに対し、CMは0.2乃至0.7の範囲に正解の多くが分布している。このようにデータベストウェブの情報の性質が異なるので、両方の情報を組み合わせることにより推定の正解率が向上することが期待される。
100…音声対話システム、101・・・ウェブ属性推定部、103・・・データベース属性推定部、105・・・信頼度統合部、107・・・応答作成部

Claims (5)

  1. データベースを利用して、入力された固有名詞の属性を推定するデータベース属性推定部と、
    ウェブを利用して、入力された固有名詞の属性を推定するウェブ属性推定部と、
    所定の属性に対して、該データベース属性推定部による推定の第1の信頼度と該ウェブ属性推定部による推定の第2の信頼度とを統合して統合信頼度を求める信頼度統合部と、
    属性の候補に対して、該属性の候補の統合信頼度に基づいて、入力に対する応答を作成する応答作成部と、を備えた音声対話システム。
  2. 前記応答作成部が、属性の候補を統合信頼度の高い順に並べ、統合信頼度の高い方からの和を求め、該和が所定の閾値を超える最小の候補数を求め、該最小の候補数にしたがって応答を作成するように構成された請求項1に記載の音声対話システム。
  3. 前記信頼度統合部が、第1の信頼度と第2の信頼度との重み付和によって統合信頼度を求めるように構成された請求項1または2に記載の音声対話システム。
  4. 前記データベース属性推定部が、固有名詞の素性と属性との相互情報量に基づいて選択された素性を使用するように構成された請求項1から3のいずれかに記載の音声対話システム。
  5. データベースを利用して、入力された固有名詞の属性を推定するステップと、
    ウェブを利用して、入力された固有名詞の属性を推定するステップと、
    所定の属性に対して、データベースに基づく推定の第1の信頼度とウェブに基づく推定の第2の信頼度とを統合して統合信頼度を求めるステップと、
    属性の候補に対して、該属性の候補の統合信頼度に基づいて、入力に対する応答を作成するステップと、を含む音声対話方法。
JP2013040742A 2013-03-01 2013-03-01 音声対話システム及び音声対話方法 Expired - Fee Related JP6126870B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013040742A JP6126870B2 (ja) 2013-03-01 2013-03-01 音声対話システム及び音声対話方法
US14/190,505 US9330656B2 (en) 2013-03-01 2014-02-26 Speech dialogue system and speech dialogue method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013040742A JP6126870B2 (ja) 2013-03-01 2013-03-01 音声対話システム及び音声対話方法

Publications (2)

Publication Number Publication Date
JP2014170047A JP2014170047A (ja) 2014-09-18
JP6126870B2 true JP6126870B2 (ja) 2017-05-10

Family

ID=51421403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013040742A Expired - Fee Related JP6126870B2 (ja) 2013-03-01 2013-03-01 音声対話システム及び音声対話方法

Country Status (2)

Country Link
US (1) US9330656B2 (ja)
JP (1) JP6126870B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6448950B2 (ja) * 2014-08-20 2019-01-09 シャープ株式会社 音声対話装置及び電子機器
JP6787269B2 (ja) * 2017-07-21 2020-11-18 トヨタ自動車株式会社 音声認識システム及び音声認識方法
JP7474211B2 (ja) * 2021-03-01 2024-04-24 Kddi株式会社 ユーザから発話された名詞を忘却する対話プログラム、装置及び方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3888812B2 (ja) * 1999-11-01 2007-03-07 富士通株式会社 事実データ統合方法および装置
JP2002288155A (ja) 2001-03-23 2002-10-04 Nippon Telegr & Teleph Corp <Ntt> 単語属性推定装置、単語属性推定方法、そのプログラムおよび記録媒体
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
JP2009217611A (ja) * 2008-03-11 2009-09-24 Toshiba Corp 音声対話装置
US8601030B2 (en) * 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center

Also Published As

Publication number Publication date
US9330656B2 (en) 2016-05-03
US20140249826A1 (en) 2014-09-04
JP2014170047A (ja) 2014-09-18

Similar Documents

Publication Publication Date Title
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
KR101968102B1 (ko) 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
CN107180084B (zh) 词库更新方法及装置
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP6595979B2 (ja) 多言語ビジネスの指標のキュレーション及び翻字統合
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
Adel et al. Features for factored language models for code-Switching speech.
JP2016516247A5 (ja)
JP6558863B2 (ja) モデル作成装置、推定装置、方法、及びプログラム
JP6126870B2 (ja) 音声対話システム及び音声対話方法
Tobaili et al. Senzi: A sentiment analysis lexicon for the latinised arabic (arabizi)
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
JP2007102104A (ja) 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
Giwa et al. Language identification of individual words with joint sequence models
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
JP5954836B2 (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
Adewoyin et al. RSTGen: imbuing fine-grained interpretable control into long-FormText generators
JP2018077698A (ja) 発話文抽出装置、不適切話題語リスト生成装置、方法、及びプログラム
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
Demir Context tailoring for text normalization
JP2019164577A (ja) 情報処理装置、情報処理方法及びプログラム
JP2019061297A (ja) 情報処理装置、プログラム及び検索方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20150703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150703

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170410

R150 Certificate of patent or registration of utility model

Ref document number: 6126870

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees