JP6481643B2

JP6481643B2 - 音声処理システムおよび音声処理方法

Info

Publication number: JP6481643B2
Application number: JP2016044653A
Authority: JP
Inventors: 整加藤; 純一伊藤; 拓磨峰村; 惇也増井; 難波　利行; 利行難波
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-03-08
Filing date: 2016-03-08
Publication date: 2019-03-13
Anticipated expiration: 2036-03-08
Also published as: CN107170447B; CN107170447A; US10629197B2; JP2017161644A; DE102017104094B4; US20170263250A1; DE102017104094A1

Description

本発明は、音声処理システムに関し、特に、ユーザからの聞き返しに対して高速に応答可能な音声処理システムに関連する。

音声認識技術の進展に伴い、クルマ空間内での音声ユーザインタフェースの利用が増加しつつある。一方、クルマ空間は雑音に埋もれる環境であり、雑音に対して頑強な認識を行えることが求められる。また、聞き返しが何回もあることを前提としたシステムを構築することが求められる。

ここで、「聞き返し」とは、Ａについて要求した後の、「Ａでなくて、Ｂの場合は？」という発話である。たとえば、「渋谷付近のイタリア料理店を検索」という要求の後の、「渋谷ではなく青山だと？」や「イタリア料理の代わりにフレンチを検索」といった発話が「聞き返し」に該当する。

特許文献１−３は、文脈を考慮して聞き返しの内容を把握し、適確に処理することを開示する。

米国特許第７３５３１７６号明細書米国特許第８０３６８７７号明細書米国特許第８５１５７５２号明細書

しかしながら、特許文献１−３は、聞き返しに対応可能とすることを主眼とした発明であり、聞き返しの際の処理時間を高速化することは開示されていない。

本発明は、音声処理システムにおいて、聞き返しの要求に対して高速に応答可能とすることを目的とする。

本発明にかかる音声処理システムは、ユーザの発話を取得する音声取得手段と、音声取得手段が取得した発話の内容を認識する音声認識手段と、前記音声認識手段の結果に基づいて処理を実行する処理実行手段と、ある語を代替する語の候補を決定する代替候補語決定手段と、を備える。そして、前記音声認識手段によって第１の語を含む要求が認識された場合に、前記処理実行手段によって前記第１の語を含む要求に応じた処理を実行して処理結果を前記ユーザに提供するとともに、前記代替候補語決定手段によって前記第１の語の代替候補である第２の語を決定し、前記処理実行手段によって前記第１の語を前記第２の語に置換した要求に応じた処理も実行して処理結果を記憶手段に記憶する、ことを特徴とする。

本発明において、前記音声認識手段によって前記第１の語を含む要求が認識された後に、前記第１の語を前記第２の語に置換した要求が認識された場合、前記処理実行手段は、前記記憶手段に記憶された処理結果を取得して前記ユーザに提供する、ことが好ましい。

このように、代替候補語決定手段によって聞き返しの候補になる語のペアを決定し、聞き返しの候補に関する処理をあらかじめ実行し結果を記憶しておくことで、実際に第１の語を第２の語に置き換える聞き返しが発生した時の処理時間を短縮することができる。

本発明において、前記代替候補語決定手段は、ある語を含む要求を前記ユーザから取得した後に、前記ある語を別の語に置換した要求を前記ユーザから取得した回数を、前記ある語と前記別の語のペアごとに記憶しており、入力された語とペアとなる語のうち前記回数が閾値以上の語を、前記入力された語の代替候補として決定する、ことができる。ここで、「前記ある語を別の語に置換した要求を前記ユーザから取得した回数」というのは、前記ある語を別の語に置換した要求に応じた処理の実行を求める聞き返し発話を取得した回数とすることができる。すなわち、代替候補語決定手段は、Ａについての要求の後の、「Ａのかわりに、Ｂの場合は？」のような聞き返しの回数を、用語ＡとＢのペアについて記憶することが好ましい。なお、代替候補語決定手段が記憶する上記の回数は、必ずしも実際にユーザの発声内容のみに基づいて決定する必要はなく、聞き返しの頻度が高いと想定される用語ペアについては、上記の回数をあらかじめ大きく設定しておいてもかまわない。

また、本発明において、代替候補語決定手段は、前記代替候補語決定手段は、ある語と当該語の代替候補を関連付けて記憶しており、入力された語に関連付けて記憶されている語を、当該入力された語の代替候補として決定する、こともできる。また、代替候補語決定手段は、語彙辞書に基づいて用語の類似性を判断して、入力された語に類似する語を代替候補として決定してもかまわない。いずれの場合も、発話における文脈も考慮して、代替候補を決定することが好ましい。

また、本発明において、前記ユーザが前記第１の語を含む要求の後に、前記第１の語を前記第２の語に置換した要求に応じた処理の実行を求める聞き返し発話をした場合に、前
記音声認識手段は、前記第１の語を含む要求の文脈情報から前記第２の語の属性を決定して、前記第２の語の認識を行う、ことも好ましい。

同一の語が文脈によって異なる意味を持つ場合があるが、第１の語を第２の語に置換した要求に応じた処理の実行を求める聞き返し発話をした場合は、第１の語と第２の語は同じ属性を有することが想定される。したがって、第１の語を含む要求の文脈情報を考慮することで、第２の語の属性を精度よく求めることができ、第２の語を精度よく認識することができる。

本発明によれば、音声処理システムにおいて、聞き返しの要求に対して高速に応答可能となる。

実施形態に係る音声処理システムの構成例を示す図。実施形態に係る語彙ペア記憶部の例を示す図。実施形態に係る音声処理方法の流れを示すフローチャート。実施形態に係る音声処理方法の流れを示すフローチャート。

以下、図面を参照しながら本発明の例示的な実施形態を説明する。なお、以下の説明は本発明を例示的に説明するものであり、本発明は以下の実施形態に限定されるものではない。

＜聞き返し＞
本実施形態にかかる音声処理システムについて説明する前に、「聞き返し」について説明する。ユーザの発話内容が音声処理システムに対して何らかの処理要求である状況を想定する。例えば、「渋谷付近でのイタリアンレストランを検索」という要求をする状況を考える。この後にユーザが「青山付近でのイタリアレストランを検索」という要求をする場合、「渋谷ではなくて青山だと？」という発話する場合がある。このように、ある語Ａを含む要求の後の「Ａではなく、Ｂの場合は？」のような発話を、本明細書では「聞き返し」と称する。上記の例では、「渋谷」という語を変える聞き返し以外に、「イタリアン」を「フレンチ」に変える聞き返しも想定される。すなわち、聞き返しのパターンは、ある要求に含まれる語の数だけ想定される。

＜システム構成＞
図１は、本実施形態にかかる音声処理システムのシステム構成を示す図である。本実施形態にかかる音声処理システムは、車両１００内のユーザの発話を、音声処理サーバ２００で認識し発話内容に応じた処理を実行して車両１００内のユーザに処理結果を提供するシステムである。

車両１００は、音声取得部１１０と情報提供部１２０を含む情報処理装置（コンピュータ）を備える。情報処理装置は、演算装置、記憶装置、入出力装置などを含み、記憶装置に格納されたプログラムを演算装置が実行することで、下記の機能が提供される。

音声取得部１１０は、１つまたは複数のマイクまたはマイクアレイから構成され、ユーザが発生した音声を取得する。音声取得部１１０が取得した音声は、無線通信により音声処理サーバ２００に送信される。なお、音声取得部１１０は取得した音声をそのまま音声処理サーバ２００に送信する必要はなく、音声の特徴量を取得して特徴量のみを送信するようにしてもよい。情報提供部１２０は、車両１００が音声処理サーバ２００から取得した情報をユーザに提供するための装置であり、画像表示装置や音声出力装置などから構成される。

音声処理サーバ２００は、音声認識部２１０、処理実行部２２０、語ペア記憶部２３０、候補語決定部２４０を含む情報処理装置（コンピュータ）を備える。情報処理装置は、演算装置、記憶装置、入出力装置などを含み、記憶装置に格納されたプログラムを演算装置が実行することで、下記の機能が提供される。

音声認識部２１０は、車両１００の音声取得部１１０から送信される音声を認識し、その内容（テキスト）および意味を把握するための機能部である。音声認識部２１０は、語彙辞書や言語モデルに基づいて音声認識を行う。具体的な音声認識手法として、既存の任意の手法を利用可能である。図では、音声認識部２１０は、１台の車両１００からのみ音声を取得するように記載しているが、多数の車両１００から音声を取得して認識することもできる。

なお、音声認識部２１０は、聞き返しの発話を認識する際には、聞き返し前の発話内容の文脈に応じて聞き返しに含まれる語の属性等を決定して認識することが好ましい。聞き返しにおいて置き換えられる語は、同一の文脈において使用される語であるため、文脈情報を用いることで聞き返しに含まれる語をより精度良く認識できる。

処理実行部２２０は、音声認識部２１０による音声認識の結果に応じた処理を実行する機能部である。例えば、ユーザの発話が所定の条件を満たす情報の取得を要求するものであれば、処理実行部２２０は、検索サーバ３００から当該条件を満たす情報を取得して、車両１００に送信する。

処理実行部２２０は、ユーザから要求を受け付けた場合に、想定される聞き返しを推定し、推定された聞き返しの要求に応じた処理を実行し、処理結果を記憶部（不図示）に記憶する。すなわち、処理実行部２２０は、推定される聞き返しの要求の結果をプリフェッチ（先取り）する。そして、実際にユーザから聞き返しを受け取った場合に、結果をプリフェッチ済みであればその結果を車両１００に送信する。処理実行部２２０は、また、聞き返しが発生した場合に、どの語がどの語で置き換えられたかを、語ペア記憶部２３０に記録する。これらの処理の詳細は、後述する。

語ペア記憶部２３０は、聞き返しにおける置換前の語と置換後の語のペアの出現回数を記憶する。図２は、語ペア記憶部２３０のテーブル構成を示す図である。語ペア記憶部２３０は、置換前の語２３１、置換後の語２３２、文脈情報２３３、出現回数２３４を格納する。置換前の語２３１は聞き返しによって置き換えられる前の語であり、置換後の語２３２は聞き返しによって置き換えられた後の語である。文脈情報２３３は、発話における文脈を特定する情報である。出現回数２３４は、文脈情報２３３によって特定される文脈によって、置換前の語２３１が置換前の語２３２によって置き換えられる聞き返しが出現した回数である。

なお、語ペア記憶部２３０における出現回数は、実際に発生した聞き返しにのみ基づいて決定する必要はない。例えば、「Ａを検索」を要求の後に「ＡではなくＢの場合は？」という聞き返しが発生した場合に、語Ａを語Ｂに置換する聞き返しの出現回数を増加させる。この際、語Ｂを語Ａに置換する聞き返しの出現回数を増加させてもよい。また、さらに続けて「Ｃの場合は？」という聞き返しが続いた場合に、語Ａを語Ｃに置換する聞き返しの出現回数を増加させる。このとき語Ａを語Ｃに置換する聞き返し以外にも、語Ｂを語Ｃに置換する聞き返し、語Ｃを語Ａに置換する聞き返し、語Ｃを語Ｂに置換する聞き返しの出現回数を増加させてもよい。聞き返しが発生する場合には、聞き返しの対象になる語は相互に置換可能と考えられるためである。

候補語決定部２４０は、ユーザからの発話を取得した時に、ユーザの発話の聞き返しを推定する機能部である。候補語決定部２４０は、語ペア記憶部２３０を参照して、聞き返しにおいてどの語がどの語に置き換えられるかを推定する。具体的には、候補語決定部２４０は、語ペア記憶部２３０を参照して、ユーザの発話に含まれる語およびこの発話の文脈において出現回数が閾値以上の語ペアを、聞き返しにおいて置き換えられる語ペアであると推定する。閾値以上の語ペアが複数ある場合には、語候補決定部２４０は、全ての語ペアを選択すると良い。ただし、上位所定数個のみを選択するようにしてもかまわない。

＜処理内容＞
まず、本実施形態にかかる音声処理システムにおける処理について、図３、図４を参照して説明する。最初にステップＳ１０２において、音声取得部１１０がユーザの発話を取得し音声認識部２１０に送信して、音声認識部２１０が発話の内容を認識する。ここでは、ユーザから「ＡからＣまでの経路を検索」という発話を受け取ったものとする。また、以下ではこの発話を｛Ａ，Ｃ｝と表わす。

ステップＳ１０４において、音声認識部２１０は、発話｛Ａ，Ｃ｝を認識した時に得られる文脈情報や各語のドメインを一時的に記憶する。

ステップＳ１０６において、処理実行部２２０は発話｛Ａ，Ｃ｝に対応する処理を実行し、その結果を車両１００に送信する。具体的には、処理実行部２２０は、検索サーバ３００に対してＡからＣまでの経路を求める要求を発行して、その結果を取得する。そして、処理実行部２２０は、検索サーバ３００から得られる処理結果を車両１００に送信する。車両１００では、情報提供部１２０が処理結果をユーザに提供する。

ステップＳ１０８において、候補語決定部２４０は、発話｛Ａ，Ｃ｝に対して想定される聞き返しにおける候補語を決定する。例えば、発話｛Ａ，Ｃ｝内の語Ａを置き換える語の候補集合｛Ｂｉ｝を決定する。具体的には、候補語決定部２４０は、語ペア記憶部２３０を参照して、置換前の語が語Ａであり、文脈情報が発話｛Ａ，Ｃ｝の文脈情報（Ｓ１０４で記憶済み）と一致するレコードに含まれる、置換後の語を候補語として決定する。この説明では語Ａを置き換える候補語のみについて説明するが、同様に語Ｃを置き換える候補語を決定することも好ましい。

ステップＳ１１０において、処理実行部２２０は、語Ａを置き換える語の候補集合｛Ｂｉ｝のそれぞれについて、発話内容｛Ｂｉ，Ｃ｝に対応する処理、すなわち「ＢｉからＣまでの経路を検索」という処理を行って、記憶装置に記憶する。経路の検索はステップＳ１０２と同様に、検索サーバ３００に対して要求を発行することによって行えばよい。

ステップＳ１１２において、ユーザからの聞き返しの発話を取得し、その内容を認識する。ここでは、ユーザが「Ａからではなくて、Ｂ１からだと？」と聞き返した場合を想定する。以下では、このような聞き返しを（Ａ，Ｂ１）と表わす。音声認識部２１０は、語Ｂ１を認識する際に、ステップＳ１０４で記憶した発話｛Ａ，Ｃ｝の文脈情報やドメインを考慮して、語Ｂ１の属性情報を決定する。例えば、語Ｂ１は地名と店舗名などの複数の意味を持つ場合があるが、音声認識部２１０は、発話｛Ａ，Ｃ｝の文脈情報等を考慮して、聞き返し（Ａ，Ｂ１）における語Ｂ１が地名を表わすと判断することができる。

ステップＳ１１４において、音声処理サーバ２００は、語ペア記憶部２３０を更新する。具体的には、置換前の語が「Ａ」、置換後の語が「Ｂ１」、文脈情報が発話｛Ａ，Ｃ｝の文脈情報に該当するレコードの出現回数を１増やす。このようなレコードが存在しない場合には、新たに作成してその出現回数を１とすればよい。この際、置換前の語が「Ｂ１」で置換後の語が「Ａ］のレコードの出現回数を１増やしてもよい。聞き返しされる語のペアは、双方向に交換可能であると考えられるためである。

ステップＳ１１６において、処理実行部２２０は、｛Ｂ１，Ｃ｝すなわち「Ｂ１からＣへの経路の検索」の処理結果を記憶済み（プリフェッチ済み）であるか判断する。記憶済みであれば、処理実行部２２０は記憶部からその結果を取得して、車両１００へ送信する。記憶済みでなければ、｛Ｂ１，Ｃ｝の処理を実行して、その処理結果を車両１００へ送信する。車両１００では、情報提供部１２０がその処理結果をユーザに提供する。

＜本発明の有利な効果＞
本発明によれば、ユーザからの音声による要求を受け付けたときに、聞き返しが発生することを予想して、予想される聞き返しに応じた処理をあらかじめ実行して結果をプリフェッチする。したがって、実際に聞き返しが発生した時に、処理を行うことなく即座に結果を返すことができる。本実施形態のように、外部サーバに対して要求を発行して処理を行う場合には数秒程度の時間がかかるが、プリフェッチによりその時間を１秒未満に短縮できる。すなわち、聞き返し時の応答を高速化することができる。

また、聞き返しの対象となる語を、実際に発生した聞き返し回数に基づいて決定しているので、推定精度を高くできる。本実施形態にように、音声処理サーバ２００が複数の車両１００からの音声を一括して処理する場合には、より多くの聞き返しの履歴を記憶できるため、より精度の良い推定が可能となる。

また、聞き返しが発生した場合に、聞き返し前の発話の文脈情報やドメインを利用して、聞き返しに含まれる語の属性情報を認識しているので、精度の良い音声認識が可能とな
る。車両内ではロードノイズなどの影響で取得される音声が不鮮明になることがあるが、このように文脈情報を利用することで車両内でも精度の良い音声認識ができる。

＜変形例＞
上記の実施形態では、実際に生じた聞き返しの回数に基づいて聞き返しの対象となる語を推定しているが、聞き返しの対象となる語の推定方法は上記の方法に限定されるわけではない。例えば、候補語決定部２４０は、語彙辞書を有するように構成し、聞き返し前の発話の文脈において、当該発話に含まれる語との類似度が閾値以上の語を、聞き返し対象の語として推定してもよい。このようにしても、上記と同様の効果を得ることができる。

また、聞き返し対象の語の推定において、当該発話を行っているユーザの履歴を重視することも好ましい。上記の説明では、音声処理サーバ２００は種々の車両（ユーザ）から得られる聞き返しの発生回数を語ペア記憶部２３０に記憶しているが、ユーザごとの聞き返し回数をカウントするようにして、ユーザの聞き返し回数に応じて聞き返しを推定することも好ましい。これにより、ユーザごとの特徴を反映した推定が可能となる。

上記の実施形態では、車両内での利用が想定されているが、本発明にかかる音声処理システムの利用場面は車両内に限定されずに、任意の環境で利用することができる。また、音声取得部（マイク）が車両に設けられ、音声認識部と処理実行部がサーバに設けられる、いわゆるセンター型の音声処理システムを例に説明したが、これらすべての機能が１つの装置に含まれる形態として本発明を実施してもよいし、上記とは異なるように機能を分担した構成により本発明を実施してもよい。

１００：車両１１０：音声取得部１２０：情報提供部
２００：音声処理サーバ２１０：音声認識部２２０：処理実行部
２３０：語ペア記憶部２４０：候補語決定部

Claims

ユーザの発話を取得する音声取得手段と、
音声取得手段が取得した発話の内容を認識する音声認識手段と、
前記音声認識手段の結果に基づいて処理を実行する処理実行手段と、
ある語を代替する語の候補を決定する代替候補語決定手段と、
を備え、
前記音声認識手段によって第１の語を含む要求が認識された場合に、
（１）前記処理実行手段によって前記第１の語を含む要求に応じた処理を実行して処理結果を前記ユーザに提供するとともに、
（２）前記代替候補語決定手段によって前記第１の語の代替候補である第２の語を決定し、前記処理実行手段によって前記第１の語を前記第２の語に置換した要求に応じた処理も実行して処理結果を記憶手段に記憶し、
前記音声認識手段によって前記第１の語を含む要求が認識された後に、前記第１の語を前記第２の語に置換した要求が認識された場合、前記処理実行手段は、前記記憶手段に記憶された処理結果を取得して前記ユーザに提供する、
音声処理システム。
前記代替候補語決定手段は、ある語を含む要求を前記ユーザから取得した後に、前記ある語を別の語に置換した要求を前記ユーザから取得した回数を、前記ある語と前記別の語のペアごとに記憶しており、入力された語とペアとなる語のうち前記回数が閾値以上の語を、前記入力された語の代替候補として決定する、
請求項１に記載の音声処理システム。
前記ある語を別の語に置換した要求を前記ユーザから取得した回数は、前記ある語を別の語に置換した要求に応じた処理の実行を求める聞き返し発話を取得した回数を含む、
請求項２に記載の音声処理システム。
前記ユーザが前記第１の語を含む要求の後に、前記第１の語を前記第２の語に置換した要求に応じた処理の実行を求める聞き返し発話をした場合に、前記音声認識手段は、前記第１の語を含む要求の文脈情報から前記第２の語の属性を決定して、前記第２の語の認識を行う、
請求項１から３のいずれか１項に記載の音声処理システム。
ユーザの発話を取得する音声取得ステップと、
前記音声取得ステップにおいて取得した発話の内容を認識する音声認識ステップと、
前記音声認識ステップの結果に基づいて処理を実行する処理実行ステップと、
ある語を代替する語の候補を決定する代替候補語決定ステップと、
を含み、
第１の語を含む要求が認識された場合に、
（１）前記第１の語を含む要求に応じた処理を実行して処理結果を前記ユーザに提供するとともに、
（２）前記第１の語の代替候補である第２の語を決定し、前記第１の語を前記第２の語に置換した要求に応じた処理も実行して処理結果を記憶し、
前記第１の語を含む要求が認識された後に、前記第１の語を前記第２の語に置換した要求が認識された場合、前記処理実行ステップにおいて、前記記憶された処理結果を取得して前記ユーザに提供する、
音声処理方法。
ある語を含む要求を前記ユーザから取得した後に、前記ある語を別の語に置換した要求を前記ユーザから取得した回数を、前記ある語と前記別の語のペアごとにテーブルに記憶するステップをさらに含み、
前記代替候補語決定ステップでは、前記テーブルを参照して、入力された語とペアとなる語のうち前記回数が閾値以上の語を、前記入力された語の代替候補として決定する、
請求項５に記載の音声処理方法。
前記ある語を別の語に置換した要求を前記ユーザから取得した回数は、前記ある語を別の語に置換した要求に応じた処理の実行を求める聞き返し発話を取得した回数を含む、
請求項６に記載の音声処理方法。
前記ユーザが前記第１の語を含む要求の後に、前記第１の語を含む要求を前記第２の語に置換した要求に応じた処理の実行を求める聞き返し発話をした場合に、前記音声認識ステップでは、前記第１の語を含む要求の文脈情報から前記第２の語の属性を決定して、前記第２の語の認識を行う、
請求項５から７のいずれか１項に記載の音声処理方法。
請求項５から８のいずれか１項に記載の方法の各ステップをコンピュータに実行させるためのプログラム。