JP2017161644A - 音声処理システムおよび音声処理方法 - Google Patents

音声処理システムおよび音声処理方法 Download PDF

Info

Publication number
JP2017161644A
JP2017161644A JP2016044653A JP2016044653A JP2017161644A JP 2017161644 A JP2017161644 A JP 2017161644A JP 2016044653 A JP2016044653 A JP 2016044653A JP 2016044653 A JP2016044653 A JP 2016044653A JP 2017161644 A JP2017161644 A JP 2017161644A
Authority
JP
Japan
Prior art keywords
word
request including
user
voice
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016044653A
Other languages
English (en)
Other versions
JP6481643B2 (ja
Inventor
整 加藤
Hitoshi Kato
整 加藤
純一 伊藤
Junichi Ito
純一 伊藤
拓磨 峰村
Takuma Minemura
拓磨 峰村
惇也 増井
Junya Masui
惇也 増井
難波 利行
Toshiyuki Nanba
利行 難波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016044653A priority Critical patent/JP6481643B2/ja
Priority to US15/409,943 priority patent/US10629197B2/en
Priority to DE102017104094.3A priority patent/DE102017104094B4/de
Priority to CN201710121977.2A priority patent/CN107170447B/zh
Publication of JP2017161644A publication Critical patent/JP2017161644A/ja
Application granted granted Critical
Publication of JP6481643B2 publication Critical patent/JP6481643B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声処理システムにおいて、聞き返しの要求に対して高速に応答可能とする。
【解決手段】音声処理システムは、ユーザの発話を取得する音声取得手段と、音声取得手段が取得した発話の内容を認識する音声認識手段と、前記音声認識手段の結果に基づいて処理を実行する処理実行手段と、ある語を代替する語の候補を決定する代替候補語決定手段と、を備え、前記音声認識手段によって第1の語を含む要求が認識された場合に、前記処理実行手段によって前記第1の語を含む要求を実行して処理結果を前記ユーザに提供するとともに、前記代替候補語決定手段によって前記第1の語の代替候補である第2の語を決定し、前記処理実行手段によって前記第1の語の代わりに前記第2の語を含む要求も実行して処理結果を記憶手段に記憶する。
【選択図】図3

Description

本発明は、音声処理システムに関し、特に、ユーザからの聞き返しに対して高速に応答可能な音声処理システムに関連する。
音声認識技術の進展に伴い、クルマ空間内での音声ユーザインタフェースの利用が増加しつつある。一方、クルマ空間は雑音に埋もれる環境であり、雑音に対して頑強な認識を行えることが求められる。また、聞き返しが何回もあることを前提としたシステムを構築することが求められる。
ここで、「聞き返し」とは、Aについて要求した後の、「Aでなくて、Bの場合は?」という発話である。たとえば、「渋谷付近のイタリア料理店を検索」という要求の後の、「渋谷ではなく青山だと?」や「イタリア料理の代わりにフレンチを検索」といった発話が「聞き返し」に該当する。
特許文献1−3は、文脈を考慮して聞き返しの内容を把握し、適確に処理することを開示する。
米国特許第7353176号明細書 米国特許第8036877号明細書 米国特許第8515752号明細書
しかしながら、特許文献1−3は、聞き返しに対応可能とすることを主眼とした発明であり、聞き返しの際の処理時間を高速化することは開示されていない。
本発明は、音声処理システムにおいて、聞き返しの要求に対して高速に応答可能とすることを目的とする。
本発明にかかる音声処理システムは、ユーザの発話を取得する音声取得手段と、音声取得手段が取得した発話の内容を認識する音声認識手段と、前記音声認識手段の結果に基づいて処理を実行する処理実行手段と、ある語を代替する語の候補を決定する代替候補語決定手段と、を備える。そして、前記音声認識手段によって第1の語を含む要求が認識された場合に、前記処理実行手段によって前記第1の語を含む要求を実行して処理結果を前記ユーザに提供するとともに、前記代替候補語決定手段によって前記第1の語の代替候補である第2の語を決定し、前記処理実行手段によって前記第1の語の代わりに前記第2の語を含む要求も実行して処理結果を記憶手段に記憶する、ことを特徴とする。
本発明において、前記音声認識手段によって前記第1の語を含む要求が認識された後に、前記第1の語の代わりに前記第2の語を含む要求が認識された場合、前記処理実行手段は、前記記憶手段に記憶された処理結果を取得して前記ユーザに提供する、ことが好ましい。
このように、代替候補語決定手段によって聞き返しの候補になる語のペアを決定し、聞き返しの候補に関する処理をあらかじめ実行し結果を記憶しておくことで、実際に第1の語を第2の語に置き換える聞き返しが発生した時の処理時間を短縮することができる。
本発明において、前記代替候補語決定手段は、ある語を含む要求を前記ユーザから取得した後に、前記ある語に代わって別の語を含む要求を前記ユーザから取得した回数を、前記ある語と前記別の語のペアごとに記憶しており、入力された語とペアとなる語のうち前記回数が閾値以上の語を、前記入力された語の代替候補として決定する、ことができる。ここで、「前記ある語に代わって別の語を含む要求を前記ユーザから取得した回数」というのは、前記ある語に代わって別の語を含む要求を行うように指示する発話を取得した回数とすることができる。すなわち、代替候補語決定手段は、Aについての要求の後の、「Aのかわりに、Bの場合は?」のような聞き返しの回数を、用語AとBのペアについて記憶することが好ましい。なお、代替候補語決定手段が記憶する上記の回数は、必ずしも実際にユーザの発声内容のみに基づいて決定する必要はなく、聞き返しの頻度が高いと想定される用語ペアについては、上記の回数をあらかじめ大きく設定しておいてもかまわない。
また、本発明において、代替候補語決定手段は、前記代替候補語決定手段は、ある語と当該語の代替候補を関連付けて記憶しており、入力された語に関連付けて記憶されている語を、当該入力された語の代替候補として決定する、こともできる。また、代替候補語決定手段は、語彙辞書に基づいて用語の類似性を判断して、入力された語に類似する語を代替候補として決定してもかまわない。いずれの場合も、発話における文脈も考慮して、代替候補を決定することが好ましい。
また、本発明において、前記ユーザが前記第1の語を含む要求の後に、前記第1の語を含む要求に代わり前記第2の語を含む要求を発話した場合に、前記音声認識手段は、前記第1の語を含む要求の文脈情報から前記第2の語の属性を決定して、前記第2の語の認識を行う、ことも好ましい。
同一の語が文脈によって異なる意味を持つ場合があるが、第1の語を含む要求の代わりに第2の語を含む要求を発話した場合は、第1の語と第2の語は同じ属性を有することが想定される。したがって、第1の語を含む要求の文脈情報を考慮することで、第2の語の属性を精度よく求めることができ、第2の語を精度よく認識することができる。
本発明によれば、音声処理システムにおいて、聞き返しの要求に対して高速に応答可能となる。
実施形態に係る音声処理システムの構成例を示す図。 実施形態に係る語彙ペア記憶部の例を示す図。 実施形態に係る音声処理方法の流れを示すフローチャート。 実施形態に係る音声処理方法の流れを示すフローチャート。
以下、図面を参照しながら本発明の例示的な実施形態を説明する。なお、以下の説明は本発明を例示的に説明するものであり、本発明は以下の実施形態に限定されるものではない。
<聞き返し>
本実施形態にかかる音声処理システムについて説明する前に、「聞き返し」について説明する。ユーザの発話内容が音声処理システムに対して何らかの処理要求である状況を想定する。例えば、「渋谷付近でのイタリアンレストランを検索」という要求をする状況を考える。この後にユーザが「青山付近でのイタリアレストランを検索」という要求をする場合、「渋谷ではなくて青山だと?」という発話する場合がある。このように、ある語Aを含む要求の後の「Aではなく、Bの場合は?」のような発話を、本明細書では「聞き返し」と称する。上記の例では、「渋谷」という語を変える聞き返し以外に、「イタリアン」を「フレンチ」に変える聞き返しも想定される。すなわち、聞き返しのパターンは、ある要求に含まれる語の数だけ想定される。
<システム構成>
図1は、本実施形態にかかる音声処理システムのシステム構成を示す図である。本実施形態にかかる音声処理システムは、車両100内のユーザの発話を、音声処理サーバ200で認識し発話内容に応じた処理を実行して車両100内のユーザに処理結果を提供するシステムである。
車両100は、音声取得部110と情報提供部120を含む情報処理装置(コンピュータ)を備える。情報処理装置は、演算装置、記憶装置、入出力装置などを含み、記憶装置に格納されたプログラムを演算装置が実行することで、下記の機能が提供される。
音声取得部110は、1つまたは複数のマイクまたはマイクアレイから構成され、ユーザが発生した音声を取得する。音声取得部110が取得した音声は、無線通信により音声処理サーバ200に送信される。なお、音声取得部110は取得した音声をそのまま音声処理サーバ200に送信する必要はなく、音声の特徴量を取得して特徴量のみを送信するようにしてもよい。情報提供部120は、車両100が音声処理サーバ200から取得した情報をユーザに提供するための装置であり、画像表示装置や音声出力装置などから構成される。
音声処理サーバ200は、音声認識部210、処理実行部220、語ペア記憶部230、候補語決定部240を含む情報処理装置(コンピュータ)を備える。情報処理装置は、演算装置、記憶装置、入出力装置などを含み、記憶装置に格納されたプログラムを演算装置が実行することで、下記の機能が提供される。
音声認識部210は、車両100の音声取得部110から送信される音声を認識し、その内容(テキスト)および意味を把握するための機能部である。音声認識部210は、語彙辞書や言語モデルに基づいて音声認識を行う。具体的な音声認識手法として、既存の任意の手法を利用可能である。図では、音声認識部210は、1台の車両100からのみ音声を取得するように記載しているが、多数の車両100から音声を取得して認識することもできる。
なお、音声認識部210は、聞き返しの発話を認識する際には、聞き返し前の発話内容の文脈に応じて聞き返しに含まれる語の属性等を決定して認識することが好ましい。聞き返しにおいて置き換えられる語は、同一の文脈において使用される語であるため、文脈情報を用いることで聞き返しに含まれる語をより精度良く認識できる。
処理実行部220は、音声認識部210による音声認識の結果に応じた処理を実行する機能部である。例えば、ユーザの発話が所定の条件を満たす情報の取得を要求するものであれば、処理実行部220は、検索サーバ300から当該条件を満たす情報を取得して、車両100に送信する。
処理実行部220は、ユーザから要求を受け付けた場合に、想定される聞き返しを推定し、推定された聞き返しの要求に応じた処理を実行し、処理結果を記憶部(不図示)に記憶する。すなわち、処理実行部220は、推定される聞き返しの要求の結果をプリフェッチ(先取り)する。そして、実際にユーザから聞き返しを受け取った場合に、結果をプリフェッチ済みであればその結果を車両100に送信する。処理実行部220は、また、聞き返しが発生した場合に、どの語がどの語で置き換えられたかを、語ペア記憶部230に記録する。これらの処理の詳細は、後述する。
語ペア記憶部230は、聞き返しにおける置換前の語と置換後の語のペアの出現回数を記憶する。図2は、語ペア記憶部230のテーブル構成を示す図である。語ペア記憶部230は、置換前の語231、置換後の語232、文脈情報233、出現回数234を格納する。置換前の語231は聞き返しによって置き換えられる前の語であり、置換後の語232は聞き返しによって置き換えられた後の語である。文脈情報233は、発話における文脈を特定する情報である。出現回数234は、文脈情報233によって特定される文脈によって、置換前の語231が置換前の語232によって置き換えられる聞き返しが出現した回数である。
なお、語ペア記憶部230における出現回数は、実際に発生した聞き返しにのみ基づいて決定する必要はない。例えば、「Aを検索」を要求の後に「AではなくBの場合は?」という聞き返しが発生した場合に、語Aを語Bに置換する聞き返しの出現回数を増加させる。この際、語Bを語Aに置換する聞き返しの出現回数を増加させてもよい。また、さらに続けて「Cの場合は?」という聞き返しが続いた場合に、語Aを語Cに置換する聞き返しの出現回数を増加させる。このとき語Aを語Cに置換する聞き返し以外にも、語Bを語Cに置換する聞き返し、語Cを語Aに置換する聞き返し、語Cを語Bに置換する聞き返しの出現回数を増加させてもよい。聞き返しが発生する場合には、聞き返しの対象になる語は相互に置換可能と考えられるためである。
候補語決定部240は、ユーザからの発話を取得した時に、ユーザの発話の聞き返しを推定する機能部である。候補語決定部230は、語ペア記憶部230を参照して、聞き返しにおいてどの語がどの語に置き換えられるかを推定する。具体的には、候補語決定部230は、語ペア記憶部230を参照して、ユーザの発話に含まれる語およびこの発話の文脈において出願回数が閾値以上の語ペアを、聞き返しにおいて置き換えられる語ペアであると推定する。閾値以上の語ペアが複数ある場合には、語候補決定部240は、全ての語ペアを選択すると良い。ただし、上位所定数個のみを選択するようにしてもかまわない。
<処理内容>
まず、本実施形態にかかる音声処理システムにおける処理について、図3、図4を参照して説明する。最初にステップS102において、音声取得部110がユーザの発話を取得し音声認識部210に送信して、音声認識部210が発話の内容を認識する。ここでは、ユーザから「AからCまでの経路を検索」という発話を受け取ったものとする。また、以下ではこの発話を{A,C}と表わす。
ステップS104において、音声認識部210は、発話{A,C}を認識した時に得られる文脈情報や各語のドメインを一時的に記憶する。
ステップS106において、処理実行部220は発話{A,C}に対応する処理を実行し、その結果を車両100に送信する。具体的には、処理実行部220は、検索サーバ300に対してAからCまでの経路を求める要求を発行して、その結果を取得する。そして、処理実行部220は、検索サーバ300から得られる処理結果を車両100に送信する。車両100では、情報提供部120が処理結果をユーザに提供する。
ステップS108において、候補語決定部240は、発話{A,C}に対して想定される聞き返しにおける候補語を決定する。例えば、発話{A,C}内の語Aを置き換える語の候補集合{Bi}を決定する。具体的には、候補語決定部240は、語ペア記憶部230を参照して、置換前の語が語Aであり、文脈情報が発話{A,C}の文脈情報(S104で記憶済み)と一致するレコードに含まれる、置換後の語を候補語として決定する。この説明では語Aを置き換える候補語のみについて説明するが、同様に語Cを置き換える候補語を決定することも好ましい。
ステップS110において、処理実行部220は、語Aを置き換える語の候補集合{Bi}のそれぞれについて、発話内容{Bi,C}に対応する処理、すなわち「BiからCまでの経路を検索」という処理を行って、記憶装置に記憶する。経路の検索はステップS102と同様に、検索サーバ300に対して要求を発行することによって行えばよい。
ステップS112において、ユーザからの聞き返しの発話を取得し、その内容を認識する。ここでは、ユーザが「Aからではなくて、B1からだと?」と聞き返した場合を想定する。以下では、このような聞き返しを(A,B1)と表わす。音声認識部210は、語B1を認識する際に、ステップS104で記憶した発話{A,C}の文脈情報やドメインを考慮して、語B1の属性情報を決定する。例えば、語B1は地名と店舗名などの複数の意味を持つ場合があるが、音声認識部210は、発話{A,C}の文脈情報等を考慮して、聞き返し(A,B1)における語B1が地名を表わすと判断することができる。
ステップS114において、音声処理サーバ200は、語ペア記憶部230を更新する。具体的には、置換前の語が「A」、置換後の語が「B1」、文脈情報が発話{A,C}の文脈情報に該当するレコードの出現回数を1増やす。このようなレコードが存在しない場合には、新たに作成してその出現回数を1とすればよい。この際、置換前の語が「B1」で置換後の語が「A]のレコードの出現回数を1増やしてもよい。聞き返しされる語のペアは、双方向に交換可能であると考えられるためである。
ステップS116において、処理実行部220は、{B1,C}すなわち「B1からCへの経路の検索」の処理結果を記憶済み(プリフェッチ済み)であるか判断する。記憶済みであれば、処理実行部220は記憶部からその結果を取得して、車両100へ送信する。記憶済みでなければ、{B1,C}の処理を実行して、その処理結果を車両100へ送信する。車両100では、情報提供部120がその処理結果をユーザに提供する。
<本発明の有利な効果>
本発明によれば、ユーザからの音声による要求を受け付けたときに、聞き返しが発生することを予想して、予想される聞き返しに応じた処理をあらかじめ実行して結果をプリフェッチする。したがって、実際に聞き返しが発生した時に、処理を行うことなく即座に結果を返すことができる。本実施形態のように、外部サーバに対して要求を発行して処理を行う場合には数秒程度の時間がかかるが、プリフェッチによりその時間を1秒未満に短縮できる。すなわち、聞き返し時の応答を高速化することができる。
また、聞き返しの対象となる語を、実際に発生した聞き返し回数に基づいて決定しているので、推定精度を高くできる。本実施形態にように、音声処理サーバ200が複数の車両100からの音声を一括して処理する場合には、より多くの聞き返しの履歴を記憶できるため、より精度の良い推定が可能となる。
また、聞き返しが発生した場合に、聞き返し前の発話の文脈情報やドメインを利用して、聞き返しに含まれる語の属性情報を認識しているので、精度の良い音声認識が可能とな
る。車両内ではロードノイズなどの影響で取得される音声が不鮮明になることがあるが、このように文脈情報を利用することで車両内でも精度の良い音声認識ができる。
<変形例>
上記の実施形態では、実際に生じた聞き返しの回数に基づいて聞き返しの対象となる語を推定しているが、聞き返しの対象となる語の推定方法は上記の方法に限定されるわけではない。例えば、候補語決定部240は、語彙辞書を有するように構成し、聞き返し前の発話の文脈において、当該発話に含まれる語との類似度が閾値以上の語を、聞き返し対象の語として推定してもよい。このようにしても、上記と同様の効果を得ることができる。
また、聞き返し対象の語の推定において、当該発話を行っているユーザの履歴を重視することも好ましい。上記の説明では、音声処理サーバ200は種々の車両(ユーザ)から得られる聞き返しの発生回数を語ペア記憶部230に記憶しているが、ユーザごとの聞き返し回数をカウントするようにして、ユーザの聞き返し回数に応じて聞き返しを推定することも好ましい。これにより、ユーザごとの特徴を反映した推定が可能となる。
上記の実施形態では、車両内での利用が想定されているが、本発明にかかる音声処理システムの利用場面は車両内に限定されずに、任意の環境で利用することができる。また、音声取得部(マイク)が車両に設けられ、音声認識部と処理実行部がサーバに設けられる、いわゆるセンター型の音声処理システムを例に説明したが、これらすべての機能が1つの装置に含まれる形態として本発明を実施してもよいし、上記とは異なるように機能を分担した構成により本発明を実施してもよい。
100:車両 110:音声取得部 120:情報提供部
200:音声処理サーバ 210:音声認識部 220:処理実行部
230:語ペア記憶部 240:候補語決定部
候補語決定部240は、ユーザからの発話を取得した時に、ユーザの発話の聞き返しを推定する機能部である。候補語決定部240は、語ペア記憶部230を参照して、聞き返しにおいてどの語がどの語に置き換えられるかを推定する。具体的には、候補語決定部240は、語ペア記憶部230を参照して、ユーザの発話に含まれる語およびこの発話の文脈において出現回数が閾値以上の語ペアを、聞き返しにおいて置き換えられる語ペアであると推定する。閾値以上の語ペアが複数ある場合には、語候補決定部240は、全ての語ペアを選択すると良い。ただし、上位所定数個のみを選択するようにしてもかまわない。

Claims (13)

  1. ユーザの発話を取得する音声取得手段と、
    音声取得手段が取得した発話の内容を認識する音声認識手段と、
    前記音声認識手段の結果に基づいて処理を実行する処理実行手段と、
    ある語を代替する語の候補を決定する代替候補語決定手段と、
    を備え、
    前記音声認識手段によって第1の語を含む要求が認識された場合に、
    前記処理実行手段によって前記第1の語を含む要求を実行して処理結果を前記ユーザに提供するとともに、
    前記代替候補語決定手段によって前記第1の語の代替候補である第2の語を決定し、前記処理実行手段によって前記第1の語の代わりに前記第2の語を含む要求も実行して処理結果を記憶手段に記憶する、
    音声処理システム。
  2. 前記音声認識手段によって前記第1の語を含む要求が認識された後に、前記第1の語の代わりに前記第2の語を含む要求が認識された場合、前記処理実行手段は、前記記憶手段に記憶された処理結果を取得して前記ユーザに提供する、
    請求項1に記載の音声処理システム。
  3. 前記代替候補語決定手段は、ある語を含む要求を前記ユーザから取得した後に、前記ある語に代わって別の語を含む要求を前記ユーザから取得した回数を、前記ある語と前記別の語のペアごとに記憶しており、入力された語とペアとなる語のうち前記回数が閾値以上の語を、前記入力された語の代替候補として決定する、
    請求項1または2に記載の音声処理システム。
  4. 前記ある語に代わって別の語を含む要求を前記ユーザから取得した回数は、前記ある語に代わって別の語を含む要求を行うように指示する発話を取得した回数を含む、
    請求項3に記載の音声処理システム。
  5. 前記代替候補語決定手段は、ある語と当該語の代替候補を関連付けて記憶しており、入力された語に関連付けて記憶されている語を、当該入力された語の代替候補として決定する、
    請求項1または2に記載の音声処理システム。
  6. 前記ユーザが前記第1の語を含む要求の後に、前記第1の語を含む要求に代わり前記第2の語を含む要求を発話した場合に、前記音声認識手段は、前記第1の語を含む要求の文脈情報から前記第2の語の属性を決定して、前記第2の語の認識を行う、
    請求項1から5のいずれか1項に記載の音声処理システム。
  7. ユーザの発話を取得する音声取得ステップと、
    音声取得手段が取得した発話の内容を認識する音声認識ステップと、
    前記音声認識手段の結果に基づいて処理を実行する処理実行ステップと、
    ある語を代替する語の候補を決定する代替候補語決定ステップと、
    を含み、
    第1の語を含む要求が認識された場合に、
    前記第1の語を含む要求を実行して処理結果を前記ユーザに提供するとともに、
    前記第1の語の代替候補である第2の語を決定し、前記第1の語の代わりに前記第2の語を含む要求も実行して処理結果を記憶する、
    音声処理方法。
  8. 前記第1の語を含む要求が認識された後に、前記第1の語の代わりに前記第2の語を含む要求が認識された場合、前記処理実行ステップにおいて、前記記憶された処理結果を取得して前記ユーザに提供する、
    請求項7に記載の音声処理方法。
  9. ある語を含む要求を前記ユーザから取得した後に、前記ある語に代わって別の語を含む要求を前記ユーザから取得した回数を、前記ある語と前記別の語のペアごとにテーブルに記憶するステップをさらに含み、
    前記代替候補語決定ステップでは、前記テーブルを参照して、入力された語とペアとなる語のうち前記回数が閾値以上の語を、前記入力された語の代替候補として決定する、
    請求項7または8に記載の音声処理方法。
  10. 前記ある語に代わって別の語を含む要求を前記ユーザから取得した回数は、前記ある語に代わって別の語を含む要求を行うように指示する発話を取得した回数を含む、
    請求項9に記載の音声処理方法。
  11. ある語と当該語の代替候補をあらかじめ関連付けて記憶するステップをさらに含み、
    前記代替候補語決定ステップでは、入力された語に関連付けて記憶されている語を、当該入力された語の代替候補として決定する、
    請求項7または8に記載の音声処理方法。
  12. 前記ユーザが前記第1の語を含む要求の後に、前記第1の語を含む要求に代わり前記第2の語を含む要求を発話した場合に、前記音声認識ステップでは、前記第1の語を含む要求の文脈情報から前記第2の語の属性を決定して、前記第2の語の認識を行う、
    請求項7から11のいずれか1項に記載の音声処理方法。
  13. 請求項7から12のいずれか1項に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2016044653A 2016-03-08 2016-03-08 音声処理システムおよび音声処理方法 Active JP6481643B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016044653A JP6481643B2 (ja) 2016-03-08 2016-03-08 音声処理システムおよび音声処理方法
US15/409,943 US10629197B2 (en) 2016-03-08 2017-01-19 Voice processing system and voice processing method for predicting and executing an ask-again request corresponding to a received request
DE102017104094.3A DE102017104094B4 (de) 2016-03-08 2017-02-28 Sprachverarbeitungssystem und sprachverarbeitungsverfahren
CN201710121977.2A CN107170447B (zh) 2016-03-08 2017-03-03 声音处理系统以及声音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016044653A JP6481643B2 (ja) 2016-03-08 2016-03-08 音声処理システムおよび音声処理方法

Publications (2)

Publication Number Publication Date
JP2017161644A true JP2017161644A (ja) 2017-09-14
JP6481643B2 JP6481643B2 (ja) 2019-03-13

Family

ID=59700728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016044653A Active JP6481643B2 (ja) 2016-03-08 2016-03-08 音声処理システムおよび音声処理方法

Country Status (4)

Country Link
US (1) US10629197B2 (ja)
JP (1) JP6481643B2 (ja)
CN (1) CN107170447B (ja)
DE (1) DE102017104094B4 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018110610A1 (ja) 2016-12-14 2018-06-21 旭硝子株式会社 電荷輸送層、および有機光電子素子
US11295742B2 (en) 2019-02-20 2022-04-05 Toyota Jidosha Kabushiki Kaisha Voice output apparatus and voice output method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7059813B2 (ja) * 2018-05-31 2022-04-26 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207761A (ja) * 2001-01-10 2002-07-26 Just Syst Corp 検索装置、検索方法、プログラム、ならびに、記録媒体
JP2003167895A (ja) * 2001-11-30 2003-06-13 Denso Corp 情報検索システム、サーバおよび車載端末
JP2007272463A (ja) * 2006-03-30 2007-10-18 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP2009237786A (ja) * 2008-03-26 2009-10-15 Brother Ind Ltd 情報提示装置及びコンピュータプログラム、並びに情報提示方法
JP2014052938A (ja) * 2012-09-10 2014-03-20 Fujitsu Ten Ltd 施設検索装置、施設検索方法、ナビゲーション装置
JP2014109897A (ja) * 2012-11-30 2014-06-12 Toshiba Corp 情報処理装置およびコンテンツ検索方法

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5093963B2 (ja) * 2000-09-08 2012-12-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 置換コマンドを有する音声認識方法
US7275033B1 (en) * 2000-09-30 2007-09-25 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
US20020072914A1 (en) * 2000-12-08 2002-06-13 Hiyan Alshawi Method and apparatus for creation and user-customization of speech-enabled services
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7353176B1 (en) 2001-12-20 2008-04-01 Ianywhere Solutions, Inc. Actuation system for an agent oriented architecture
US7231343B1 (en) 2001-12-20 2007-06-12 Ianywhere Solutions, Inc. Synonyms mechanism for natural language systems
US20030233230A1 (en) * 2002-06-12 2003-12-18 Lucent Technologies Inc. System and method for representing and resolving ambiguity in spoken dialogue systems
US7054818B2 (en) * 2003-01-14 2006-05-30 V-Enablo, Inc. Multi-modal information retrieval system
JP2008022493A (ja) * 2006-07-14 2008-01-31 Fujitsu Ltd 受付支援システムとそのプログラム
US20080134038A1 (en) * 2006-12-05 2008-06-05 Electronics And Telecommunications Research Interactive information providing service method and apparatus
US7720721B1 (en) * 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
CN101295293B (zh) * 2007-04-29 2010-06-02 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8046220B2 (en) * 2007-11-28 2011-10-25 Nuance Communications, Inc. Systems and methods to index and search voice sites
US20090287626A1 (en) * 2008-05-14 2009-11-19 Microsoft Corporation Multi-modal query generation
US9978365B2 (en) * 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
JP5315289B2 (ja) * 2010-04-12 2013-10-16 トヨタ自動車株式会社 オペレーティングシステム及びオペレーティング方法
US9098569B1 (en) * 2010-12-10 2015-08-04 Amazon Technologies, Inc. Generating suggested search queries
US9129606B2 (en) * 2011-09-23 2015-09-08 Microsoft Technology Licensing, Llc User query history expansion for improving language model adaptation
US8762389B1 (en) * 2012-02-02 2014-06-24 Google Inc. Synonym identification based on search quality
SG11201406240WA (en) * 2012-03-30 2014-11-27 Nec Corp Synonym relation determination device, synonym relation determination method, and program thereof
US8538984B1 (en) * 2012-04-03 2013-09-17 Google Inc. Synonym identification based on co-occurring terms
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US9092509B2 (en) * 2012-11-19 2015-07-28 Microsoft Technology Licensing, Llc Search query user interface
JP6223739B2 (ja) * 2013-07-24 2017-11-01 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US20150161198A1 (en) * 2013-12-05 2015-06-11 Sony Corporation Computer ecosystem with automatically curated content using searchable hierarchical tags
JP6543460B2 (ja) * 2013-12-18 2019-07-10 ハーマン インターナショナル インダストリーズ インコーポレイテッド 音声認識問い合わせ応答システム
US20150179170A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Discriminative Policy Training for Dialog Systems
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US9378204B2 (en) * 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
JP6357055B2 (ja) 2014-08-26 2018-07-11 ダイハツ工業株式会社 内燃機関のシール構造
US10614799B2 (en) * 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10339165B2 (en) * 2015-02-27 2019-07-02 Walmart Apollo, Llc System, method, and non-transitory computer-readable storage media for generating synonyms of a search query
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10133821B2 (en) * 2016-01-06 2018-11-20 Google Llc Search result prefetching of voice queries
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
JP7059813B2 (ja) * 2018-05-31 2022-04-26 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207761A (ja) * 2001-01-10 2002-07-26 Just Syst Corp 検索装置、検索方法、プログラム、ならびに、記録媒体
JP2003167895A (ja) * 2001-11-30 2003-06-13 Denso Corp 情報検索システム、サーバおよび車載端末
JP2007272463A (ja) * 2006-03-30 2007-10-18 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP2009237786A (ja) * 2008-03-26 2009-10-15 Brother Ind Ltd 情報提示装置及びコンピュータプログラム、並びに情報提示方法
JP2014052938A (ja) * 2012-09-10 2014-03-20 Fujitsu Ten Ltd 施設検索装置、施設検索方法、ナビゲーション装置
JP2014109897A (ja) * 2012-11-30 2014-06-12 Toshiba Corp 情報処理装置およびコンテンツ検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018110610A1 (ja) 2016-12-14 2018-06-21 旭硝子株式会社 電荷輸送層、および有機光電子素子
US11295742B2 (en) 2019-02-20 2022-04-05 Toyota Jidosha Kabushiki Kaisha Voice output apparatus and voice output method

Also Published As

Publication number Publication date
US20170263250A1 (en) 2017-09-14
CN107170447A (zh) 2017-09-15
US10629197B2 (en) 2020-04-21
DE102017104094B4 (de) 2021-02-25
DE102017104094A1 (de) 2017-09-14
JP6481643B2 (ja) 2019-03-13
CN107170447B (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
US10331784B2 (en) System and method of disambiguating natural language processing requests
CN107210039B (zh) 环境调节的讲话人标识
JP6960914B2 (ja) ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成
US10991374B2 (en) Request-response procedure based voice control method, voice control device and computer readable storage medium
US10043520B2 (en) Multilevel speech recognition for candidate application group using first and second speech commands
US9666188B2 (en) System and method of performing automatic speech recognition using local private data
JP2021182168A (ja) 音声認識システム
US10629186B1 (en) Domain and intent name feature identification and processing
JP2019079034A (ja) 自己学習自然言語理解を伴うダイアログ・システム
US10628483B1 (en) Entity resolution with ranking
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US20160078773A1 (en) System and method of providing task-based solicitation of request related user inputs
US10049656B1 (en) Generation of predictive natural language processing models
US20170018268A1 (en) Systems and methods for updating a language model based on user input
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6481643B2 (ja) 音声処理システムおよび音声処理方法
JP2018185561A (ja) 対話支援システム、対話支援方法、及び対話支援プログラム
US10140981B1 (en) Dynamic arc weights in speech recognition models
WO2016110156A1 (zh) 语音搜索方法、装置、终端和计算机存储介质
JP2018155980A (ja) 対話装置および対話方法
US20220161131A1 (en) Systems and devices for controlling network applications
JP7177348B2 (ja) 音声認識装置、音声認識方法およびプログラム
US11893996B1 (en) Supplemental content output
WO2021166504A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20240212687A1 (en) Supplemental content output

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190128

R151 Written notification of patent or utility model registration

Ref document number: 6481643

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151