JP6862632B2

JP6862632B2 - 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム

Info

Publication number: JP6862632B2
Application number: JP2019114544A
Authority: JP
Inventors: チャン、シャンタン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-07-24
Filing date: 2019-06-20
Publication date: 2021-04-21
Anticipated expiration: 2039-06-20
Also published as: CN110069608B; JP2020016875A; CN110069608A; US20200035241A1

Description

本発明は、インターネット技術分野に関するものであり、特に音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラムに関するものである。

従来のスマート端末設備は、音声インタラクションを行う時、一般的に、固定の応答声を採用してユーザとインタラクションを行うので、ユーザと端末設備との間の音声インタラクション過程が無味乾燥になってしまう。

本発明は、これを考慮して、マン−マシン音声インタラクションの実感、興味性を向上するための音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラムを提供する。

本発明において技術の問題点を解決するために採用した技術案は、第一端末設備が送信した音声データを受信することと、前記音声データの音声識別結果及び声紋識別結果を取得することと、前記音声識別結果に対する応答テキストを取得し、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことと、変換して得られたオーディオデータを前記第一端末設備に送信することと、を含む、音声インタラクション方法を提供する。

本発明の一つの好ましい実施形態によれば、前記声紋識別結果は、ユーザの性別、年齢、地域、職業内の少なくとも一種の身元情報を含む。

本発明の一つの好ましい実施形態によれば、前記音声識別結果に対する応答テキストを取得することは、前記音声識別結果を利用して検索を行い、前記音声識別結果に対応するテキスト検索結果及び／又は提示テキストを獲得すること、を含む。

本発明の一つの好ましい実施形態によれば、前記音声識別結果を利用して検索を行い、オーディオ検索結果を獲得したら、前記オーディオ検索結果を前記第一端末設備に送信すること、を更に含む。

本発明の一つの好ましい実施形態によれば、前記音声識別結果に対する応答テキストを取得することは、前記音声識別結果及び声紋識別結果を利用して検索を行い、前記音声識別結果及び声紋識別結果に対応するテキスト検索結果及び／又は提示テキストを獲得すること、を含む。

本発明の一つの好ましい実施形態によれば、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことは、予め設定された身元情報と音声合成パラメータとの間の対応関係に基づいて、前記声紋識別結果に対応する音声合成パラメータを確定すること、確定された音声合成パラメータを利用して前記応答テキストに対して音声変換を行うこと、を含む。

本発明の一つの好ましい実施形態によれば、第二端末設備の前記対応関係に対する設定を受信し、保存すること、を更に含む。

本発明の一つの好ましい実施形態によれば、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行う前に、前記第一端末設備がアダプティブ音声応答として設定されたかを判断し、そうであれば、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことを続けて実行し、そうでなければ、予め設定された又はデフォルトの音声合成パラメータを利用して前記応答テキストに対して音声変換を行うこと、を更に含む。

本発明において技術の問題点を解決するために採用した技術案は、第一端末設備が送信した音声データを受信するための受信手段と、前記音声データの音声識別結果及び声紋識別結果を取得するための処理手段と、前記音声識別結果に対する応答テキストを取得し、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うための変換手段と、変換して得られたオーディオデータを前記第一端末設備に送信するための送信手段と、を含む音声インタラクション装置を提供する。

本発明の一つの好ましい実施形態によれば、前記変換手段は、前記音声識別結果に対する応答テキストを取得する時、前記音声識別結果を利用して検索を行い、前記音声識別結果に対応するテキスト検索結果及び／又は提示テキストを獲得することを具体的に実行する。

本発明の一つの好ましい実施形態によれば、前記変換手段は、前記音声識別結果を利用して検索を行い、オーディオ検索結果を獲得したら、前記オーディオ検索結果を前記第一端末設備に送信することを実行するために用いられる。

本発明の一つの好ましい実施形態によれば、前記変換手段は、前記音声識別結果に対する応答テキストを取得する時、前記音声識別結果及び声紋識別結果を利用して検索を行い、前記音声識別結果及び声紋識別結果に対応するテキスト検索結果及び／又は提示テキストを獲得すること、を具体的に実行する。

本発明の一つの好ましい実施形態によれば、前記変換手段は、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行う時、予め設定された身元情報と音声合成パラメータとの間の対応関係に基づいて、前記声紋識別結果に対応する音声合成パラメータを確定すること、確定された音声合成パラメータを利用して前記応答テキストに対して音声変換を行うこと、を具体的に実行する。

本発明の一つの好ましい実施形態によれば、前記変換手段は、第二端末設備の前記対応関係に対する設定を受信し、保存することを実行するために用いられる。

本発明の一つの好ましい実施形態によれば、前記変換手段は、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行う前、前記第一端末設備がアダプティブ音声応答として設定されたかを判断し、そうであれば、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことを続けて実行し、そうでなければ、予め設定された又はデフォルトの音声合成パラメータを利用して前記応答テキストに対して音声変換を行うこと、を更に具体的に実行する。

以上の技術案から分かるように、本発明は、ユーザが入力した音声データによって、動的に音声合成パラメータを取得して音声識別結果に対応する応答テキストに対して音声変換を行い、変換して得られたオーディオデータをユーザの身元情報に合わせ、マン−マシンインタラクションの音声適応を実現し、マン−マシン音声インタラクションの実感を向上し、マン−マシン音声インタラクションの興味性を向上する。

本発明の一実施形態にかかる音声インタラクション方法フロー図である。本発明の一実施形態にかかる音声インタラクション装置構成図である。本発明の一実施形態にかかるコンピュータシステム／サーバのブロック図である。

本発明の実施形態の目的、技術案と利点をより明確で簡潔させるために、以下、本発明の実施形態の図面を参照して実施形態を挙げて、本発明をはっきりと完全に説明する。

本発明の実施形態において使用される専門用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の実施形態と添付の特許請求の範囲において使用された単数形式の「一種」、「前記」及び「該」は、文脈が明らかに他の意味を示さない限り、ほとんどのフォームを含めることも意図する。

本願において使用される専門用語「及び／又は」は、関連対象を記述する関連関係だけであり、三つの関係、例えば、Ａ及び／又はＢは、Ａだけ存在し、ＡとＢが同時に存在し、Ｂだけ存在するという三つの情况が存在することを表すと理解されるべきである。また、本願における文字「／」は、一般的に、前後関連対象が一種の「又は」の関係であるを表す。

言葉の環形に応じて、ここで使用される語彙「たら」は、「……とき」又は「……と」又は「確定に応答」又は「検出に応答」と解釈することができる。類似に、状況に応じて、語句「確定したら」又は「（記載した条件又はイベントを）検出したら」は、「確定したとき」又は「確定に応答」又は「（記載した条件又はイベントを）検出したとき」又は「（記載した条件又はイベントの）検出に応答」と解釈することができる。

図１は、本発明の一実施形態にかかる音声インタラクション方法フロー図であり、図１に示すように、前記方法は、サーバ側において実行され、以下のようなものを含む。

１０１において、第一端末設備が送信した音声データを受信する。

本ステップにおいて、サーバ側は、第一端末設備が送信したユーザによって入力した音声データを受信する。本発明において、第一端末設備は、スマート端末設備であり、例如スマートフォン、タブレット、スマートウェアラブル設備、スマートスピーカボックス、スマート家電等であり、該スマート設備は、ユーザ音声データを取得する及びオーディオデータを再生する能力を有す。

ただし、第一端末設備は、マイクによってユーザが入力した音声データを収集し、第一端末設備がウェイクアップ状態にある時、収集された音声データをサーバ側までに送信する。

１０２において、前記音声データの音声識別結果及び声紋識別結果を取得する。

本ステップにおいて、ステップ１０１において受信した音声データに対して音声識別及び声紋識別を行うことで、音声データに対応する音声識別結果及び声紋識別結果をそれぞれに取得する。

当然のことながら、音声データの音声識別結果及び声紋識別結果を取得するとき、サーバ側で音声データに対して音声識別及び声紋識別を行ってもよく、第一端末設備で音声データに対して音声識別及び声紋識別を行い、第一端末設備によって音声データ、音声データに対応する音声識別結果及び声紋識別結果をサーバ側まで送信してもよく、サーバ側によって受信された音声データをそれぞれに音声識別サーバ及び声紋識別サーバに送信し、更にこの二つのサーバから音声データの音声識別結果及び声紋識別結果を取得してもよい。

ただし、音声データの声紋識別結果は、ユーザの性別、年齢、地域、職業の少なくとも一種の身元情報を含む。ユーザの性別は、ユーザが男性又は女性であることができ、ユーザの年齢は、ユーザが子供、若者、中年又は老人であることができる。

具体的に、音声データに対して音声識別を行い、音声データに対応する音声識別結果を取得し、その結果は一般的にテキストデータであり、音声データに対して声紋識別を行い、音声データに対応する声紋識別結果を取得する。当然のことながら、本発明に関する音声識別及び声紋識別は、従来技術であり、ここではその説明を略し、且つ本発明は、音声識別及び声紋識別の順序を限定しない。

また、音声データに対して音声識別及び声紋識別を行う前に、音声データに対してノイズ除去処理を行い、ノイズ除去処理後の音声データを利用して音声識別及び声紋識別を行うことで、音声識別及び声紋識別の確度を向上すること、を更に含んでもよい。

１０３において、前記音声識別結果に対する応答テキストを取得し、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行う。

本ステップにおいて、ステップ１０２において取得した音声データに対応する音声識別結果に基づいて、検索を行い、音声識別結果に対応する応答テキストを取得し、更に声紋識別結果を利用して応答テキストに対して音声変換を行うことで、応答テキストに対応するオーディオデータを得る。

音声データの音声識別結果は、テキストデータであり、常に、テキストデータのみに基づいて検索を行うと、対応テキストデータの全ての検索結果を得るばかりであり、異なる性別、異なる年齢、異なる地域、異なる職業に適応する検索結果は獲得できない。

従って、本ステップにおいて、音声識別結果を利用して検索を行う時、音声識別結果及び声紋識別結果を利用して検索を行い、対応音声識別結果及び声紋識別結果の検索結果を得る方式を採用してもよい。本発明は、取得された声紋識別結果を加えて検索を行うことで、取得された検索結果を声紋識別結果におけるユーザの身元情報に合わせることができることで、更に正しく、更にユーザの所望に合う検索結果を取得する目的を実現する。

ただし、音声識別結果及び声紋識別結果を利用して検索を行う時、先ず、音声識別結果を利用して検索を行い、対応音声識別結果の検索結果を得てから、次に、声紋識別結果と得られた検索結果との間のマッチング度を計算し、マッチング度がプリセット閾値を超える検索結果を、対応音声識別結果及び声紋識別結果の検索結果とする方式を採用してもよい。本発明は、音声識別結果及び声紋識別結果を利用して検索を行い検索結果を取得する方式を限定しない。

例えば、声紋識別結果におけるユーザの身元情報が子供であれば、本ステップにおいて、検索結果を取得する時、更に子供に合う検索結果を得る。声紋識別結果におけるユーザの身元情報が男性であれば、本ステップにおいて、検索結果を取得する時、更に男性に合う検索結果を得る。

音声識別結果に基づいて検索を行う時、直接に検索エンジンを利用して検索を行い、音声識別結果に対応する検索結果を得ることができる。

または、音声識別結果に対応する特定領域のサーバを確定し、音声識別結果に基づいて確定された特定領域のサーバにおいて検索を行うことで、該当の検索結果を取得する方式を採用してもよい。例えば、音声識別結果が「激励歌をお勧め下さい」であれば、該音声識別結果に基づいて、対応する特定領域のサーバが音楽領域のサーバであると確定し、声紋識別結果におけるユーザの身元情報が男性であれば、音楽特定領域のサーバにおいて「男性に合う激励歌」の検索結果を検索して得る方式を採用してもよい。

本ステップにおいて、音声識別結果を利用して検索を行い、音声識別結果に対応する応答テキストを得る。ただし、音声識別結果に対応する応答テキストは、音声識別結果に対応するテキスト検索結果及び／又は提示テキストを含み、該提示テキストは、第一端末設備が再生する前にユーザに対して続いて再生しようとするものを提示するために用いられる。

例えば、音声識別結果が「激励歌を再生する」であれば、対応の提示テキストは、「あなたのために歌を再生します」であることができ、音声識別結果が「激励歌を検索」であれば、対応の提示テキストは、「あなたのために以下の内容を検索して得た」であることができる。

また、本ステップにおいて、音声識別結果に対応する応答テキストを取得した後、更に声紋識別結果を利用して取得された応答テキストに対して音声変換を行う。

当然のことながら、声紋識別結果を利用して取得された応答テキストに対して音声変換を行う前、更に以下の内容も含む。第一端末設備がアダプティブ音声応答として設定されたかを判断し、そうであれば、声紋識別結果を利用して取得された応答テキストに対して音声変換を行うことを実行し、そうでなければ、予め設定された又はデフォルトの音声合成パラメータを利用して応答テキストに対して音声変換を行う。

具体的に、声紋識別結果を利用して応答テキストに対して音声変換を行う時、予め設定された身元情報と音声合成パラメータとの間の対応関係に基づいて、声紋識別結果に対応する音声合成パラメータを確定し、確定された音声合成パラメータを利用して応答テキストに対して音声変換を行うことで、応答テキストに対応するオーディオデータを得る方式を採用することができる。

例えば、ユーザの身元情報が子供であれば、子供に対応する音声合成パラメータが「子供」音声合成パラメータであると確定し、続いて確定された「子供」音声合成パラメータを利用して応答テキストに対して音声変換を行い、変換して得られたオーディオデータにおける声が子供の声となるようにする。

当然のことながら、サーバ側における身元情報と音声合成パラメータとの間の対応関係は、第二端末設備によって設定され、該第二端末設備は、第一端末設備と同じても、異なってもよい。第二端末設備は、設定された対応関係をサーバ側までに送信し、サーバ側に該対応関係を保存することで、サーバ側は、該対応関係に基づいて、ユーザの身元情報に対応する音声合成パラメータを確定することができる。ただし、音声合成パラメータは、声の音高、音長と音強等のパラメータのようなものを含むことができる。

既存において、検索結果に対して音声変換を行う時に使用する音声合成パラメータは一般的に固定的なものであり、即ち、異なるユーザが得た音声変換後のオーディオデータにおける声は固定的なものである。しかし、本願は、声紋識別結果に基づいて、動的にユーザの身元情報に対応する音声合成パラメータを取得し、異なるユーザが得られた音声変換後のオーディオデータにおける声を、ユーザの身元情報に対応させることができるので、ユーザのインタラクション体験を向上する。

１０４において、変換して得られたオーディオデータを前記第一端末設備に送信する。

本ステップにおいて、第一端末設備が対応ユーザの音声データのフィードバック内容を再生するように、ステップ１０３において変換して得られたオーディオデータを第一端末設備に送信する。

当然のことながら、音声識別結果を利用してマッチング検索を行う時、獲得された検索結果がオーディオ検索結果であれば、該オーディオ検索結果に対して音声変換を行う必要がなく、直接該オーディオ検索結果を第一端末設備に送信する。

また、音声識別結果に基づいてそれに対応する提示テキストを取得したら、該提示テキストに対応するオーディオデータをオーディオ検索結果又はテキスト検索結果に対応するオーディオデータの前に追加し、第一端末設備がオーディオ検索結果又はテキスト検索結果に対応するオーディオデータを再生する前に、提示テキストに対応するオーディオデータをまず再生するようにすることで、第一端末設備がユーザの入力した音声データに対応するフィードバック内容を再生する時に更にスムーズになるように確保することができる。

図２は、本発明の一実施形態にかかる一つの音声インタラクション装置フロー図であり、図２に示すように、前記装置は、サーバ側に位置し、以下を含む。

受信手段２１は、第一端末設備が送信した音声データを受信するために用いられる。

受信手段２１は、第一端末設備が送信したユーザによって入力した音声データを受信する。本発明において、第一端末設備は、スマート端末設備であり、例如スマートフォン、タブレット、スマートウェアラブル設備、スマートスピーカボックス、スマート家電等であり、該スマート設備は、ユーザ音声データを取得する及びオーディオデータを再生する能力を有す。

ただし、第一端末設備は、マイクによってユーザが入力した音声データを収集し、第一端末設備がウェイクアップ状態にある時、収集された音声データを受信手段２１までに送信する。

処理手段２２は、前記音声データの音声識別結果及び声紋識別結果を取得するために用いられる。

処理手段２２は、受信手段２１が受信した音声データに対して音声識別及び声紋識別を行うことで、それぞれに音声データに対応する音声識別結果及び声紋識別結果を取得する。

当然のことながら、音声データの音声識別結果及び声紋識別結果を取得する時、処理手段２２によって音声データに対して音声識別及び声紋識別を行ってもよく、第一端末設備が音声データに対して音声識別及び声紋識別を行った後、音声データ、音声識別結果及び声紋識別結果を共にサーバ側までに送信してもよく、処理手段２２によって受信した音声データをそれぞれに音声識別サーバと声紋識別サーバまでに送信し、この二つのサーバから音声データの音声識別結果及び声紋識別結果を取得してもよい。

具体的に、処理手段２２は、音声データに対して音声識別を行い、音声データに対応する音声識別結果を取得し、その結果は一般的にテキストデータであり、処理手段２２は、音声データに対して声紋識別を行い、音声データに対応する声紋識別結果を取得する。当然のことながら、本発明に関する音声識別及び声紋識別は、従来技術であり、ここではその説明を略し、且つ本発明は、音声識別及び声紋識別の順序を限定しない。

また、処理手段２２は、音声データに対して音声識別及び声紋識別を行う前に、音声データに対してノイズ除去処理を行い、ノイズ除去処理後の音声データを利用して音声識別及び声紋識別を行うことで、音声識別及び声紋識別の確度を向上することを含んでもよい。

変換手段２３は、前記音声識別結果に対する応答テキストを取得し、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うために用いられる。

変換手段２３は、処理手段２２が取得した音声データに対応する音声識別結果に基づいて、検索を行い、音声識別結果に対応する応答テキストを取得し、更に声紋識別結果を利用して応答テキストに対して音声変換を行うことで、応答テキストに対応するオーディオデータを得る。

音声データの音声識別結果は、テキストデータであり、常に、テキストデータのみに基づいて検索を行う時、対応テキストデータの全ての検索結果を得るばかりであり、異なる性別、異なる年齢、異なる地域、異なる職業に適応する検索結果は獲得できない。

従って、変換手段２３は、音声識別結果を利用して検索を行う時、音声識別結果及び声紋識別結果を利用して検索を行い、対応音声識別結果及び声紋識別結果の検索結果を得る方式を採用してもよい。変換手段２３は、取得された声紋識別結果を結合して検索を行うことで、取得された検索結果を声紋識別結果におけるユーザの身元情報に合わせることができることで、更に正しく、更にユーザの所望に合う検索結果を取得する目的を実現する。

ただし、変換手段２３は、音声識別結果及び声紋識別結果を利用して検索を行う時、先ず音声識別結果を利用して検索を行い、対応音声識別結果の検索結果を得てから、次に声紋識別結果と得られた検索結果との間のマッチング度を計算し、マッチング度がプリセット閾値を超える検索結果を、対応音声識別結果及び声紋識別結果の検索結果とする方式を採用してもよい。本発明は、変換手段２３が音声識別結果及び声紋識別結果を利用して検索結果を取得する方式を限定しない。

変換手段２３は、音声識別結果に基づいて検索を行う時、直接に検索エンジンを利用して検索を行い、音声識別結果に対応する検索結果を得ることができる。

または、変換手段２３は、音声識別結果に対応する特定領域のサーバを確定し、音声識別結果に基づいて確定された特定領域のサーバにおいて検索を行うことで、該当の検索結果を取得する方式を採用してもよい。

変換手段２３は、音声識別結果を利用して検索を行い、音声識別結果に対応する応答テキストを得る。ただし、音声識別結果に対応する応答テキストは、音声識別結果に対応するテキスト検索結果及び／又は提示テキストを含み、該提示テキストは、第一端末設備が再生する前にユーザに対して続いて再生しようとするものを提示するために用いられる。

また、変換手段２３は、音声識別結果に対応する応答テキストを取得した後、更に声紋識別結果を利用して取得された応答テキストに対して音声変換を行う。

当然のことながら、変換手段２３は、声紋識別結果を利用して取得された応答テキストに対して音声変換を行う前、第一端末設備がアダプティブ音声応答として設定されたかを判断し、そうであれば、声紋識別結果を利用して取得された応答テキストに対して音声変換を行うことを実行し、そうでなければ、予め設定された又はデフォルトの音声合成パラメータを利用して応答テキストに対して音声変換を行うこと、を更に実行する。

具体的に、変換手段２３は、声紋識別結果を利用して応答テキストに対して音声変換を行う時、予め設定された身元情報と音声合成パラメータとの間の対応関係に基づいて、声紋識別結果に対応する音声合成パラメータを確定し、確定された音声合成パラメータを利用して応答テキストに対して音声変換を行うことで、応答テキストに対応するオーディオデータを得る方式を採用することができる。

当然のことながら、変換手段２３における身元情報と音声合成パラメータとの間の対応関係は、第二端末設備によって設定され、該第二端末設備は、第一端末設備と同じても、異なってもよい。第二端末設備は、設定された対応関係を変換手段２３までに送信し、変換手段２３に該対応関係を保存することで、変換手段２３は、該対応関係に基づいて、ユーザの身元情報に対応する音声合成パラメータを確定することができる。ただし、音声合成パラメータは、声の音高、音長と音強等のパラメータのようなものを含むことができる。

送信手段２４は、変換して得られたオーディオデータを前記第一端末設備に送信することために用いられる。

送信手段２４は、第一端末設備が対応ユーザの音声データのフィードバック内容を再生するように、変換手段２３が変換して得られたオーディオデータを第一端末設備に送信する。

当然のことながら、変換手段２３が音声識別結果を利用してマッチング検索を行う時、獲得された検索結果がオーディオ検索結果であれば、該オーディオ検索結果に対して音声変換を行う必要がなく、送信手段２４によって直接該オーディオ検索結果を第一端末設備に送信する。

また、変換手段２３が音声識別結果に基づいてそれに対応する提示テキストを取得したら、送信手段２４は、該提示テキストに対応するオーディオデータをオーディオ検索結果又はテキスト検索結果に対応するオーディオデータの前に追加し、第一端末設備がオーディオ検索結果又はテキスト検索結果に対応するオーディオデータを再生する前に、先ずに提示テキストに対応するオーディオデータを再生するようにすることで、第一端末設備がユーザの入力した音声データに対応するフィードバック内容を再生する時に更にスムーズになるように確保することができる。

図３は、本発明の実施形態を実現するために適用できる例示的なコンピュータシステム／サーバ０１２のブロック図を示す。図３に示すコンピュータシステム／サーバ０１２は、一つの例だけであり、本発明の実施形態の機能と使用範囲を制限していない。

図３に示すように、コンピュータシステム／サーバ０１２は、汎用演算設備の形態で表現される。コンピュータシステム／サーバ０１２の構成要素には、１つ又は複数のプロセッサ又は処理手段０１６と、システムメモリ０２８と、異なるシステム構成要素（システムメモリ０２８と処理手段０１６とを含む）を接続するためのバス０１８を含んでいるが、これに限定されない。

バス０１８は、複数種類のバス構成の中の１つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構（ＩＳＡ）バス、マイクロチャンネル架構（ＭＡＣ）バス、増強型ＩＳＡバス、ビデオ電子規格協会（ＶＥＳＡ）ローカルバス及び周辺コンポーネント接続（ＰＣＩ）バスを含んでいるが、これに限定されない。

コンピュータシステム／サーバ０１２には、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータシステム／サーバ０１２にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

システムメモリ０２８には、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ（ＲＡＭ）０３０及び／又はキャッシュメモリ０３２を含むことができる。コンピュータシステム／サーバ０１２には、更に他の移動可能／移動不可なコンピュータシステム記憶媒体や揮発性／不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、ストレジ０３４は、移動不可能な不揮発性磁媒体を読み書くために用いられる（図３に示していないが、常に「ハードディスクドライブ」とも呼ばれる）。図３に示していないが、移動可能な不揮発性磁気ディスク（例えば「フレキシブルディスク」）に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク（例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又は他の光媒体）に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、ぞれぞれ１つ又は複数のデータ媒体インターフェースによってバス０１８に接続される。システムメモリ０２８には少なくとも１つのプログラム製品を含み、該プログラム製品には１組の（例えば少なくとも１つの）プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施形態の機能を実行するように配置される。

１組の（少なくとも１つの）プログラムモジュール０４２を含むプログラム／実用ツール０４０は、例えばシステムメモリ０２８に記憶され、このようなプログラムモジュール０４２には、オペレーティングシステム、１つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での１つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール０４２は、常に本発明に記載されている実施形態における機能及び／或いは方法を実行する。

コンピュータシステム／サーバ０１２は、一つ又は複数の周辺設備０１４（例えばキーボード、ポインティングデバイス、ディスプレイ０２４）と通信を行ってもよく、本発明において、コンピュータシステム／サーバ０１２は外部レーダ設備と通信を行い、一つ又は複数のユーザと該コンピュータシステム／サーバ０１２とのインタラクションを実現することができる設備と通信を行ってもよく、及び／又は該コンピュータシステム／サーバ０１２と一つ又は複数の他の演算設備との通信を実現することができるいずれかの設備（例えばネットワークカード、モデム等）と通信を行っても良い。このような通信は入力／出力（Ｉ／Ｏ）インターフェース０２２によって行うことができる。そして、コンピュータシステム／サーバ０１２は、ネットワークアダプタ０２０によって、一つ又は複数のネットワーク（例えばローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及び／又は公衆回線網、例えばインターネット）と通信を行っても良い。図に示すように、ネットワークアダプタ０２０は、バス０１８によって、コンピュータシステム／サーバ０１２の他のモジュールと通信を行う。当然のことながら、図３に示していないが、コンピュータシステム／サーバ０１２と連携して他のハードウェア及び／又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、ＲＡＩＤシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

プロセッサ０１６は、メモリ０２８に記憶されているプログラムを実行することで、様々な機能応用及びデータ処理、例えば本発明に記載されている実施形態における方法フローを実現する。

上記のコンピュータプログラムは、コンピュータ記憶媒体に設定されることができ、即ち該コンピュータ記憶媒体にコンピュータプログラムを符号化することができ、該プログラムが一つ又は複数のコンピュータによって実行される時、一つ又は複数のコンピュータに本発明の上記実施形態に示す方法フロー及び／又は装置操作を実行させる。例えば、上記一つ又は複数のプロセッサによって本発明の実施形態が提供した方法フローを実行する。

時間と技術の発展に伴って、媒体の意味はますます広範囲になり、コンピュータプログラムの伝送経路は有形のメディアによって制限されなくなり、ネットワークなどから直接ダウンロードすることもできる。１つ又は複数のコンピューター読み取りな可能な媒体の任意な組合を採用しても良い。コンピューター読み取りな可能な媒体は、コンピューター読み取りな可能な信号媒体又はコンピューター読み取りな可能な記憶媒体である。コンピューター読み取りな可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピューター読み取りな可能な記憶媒体の更なる具体的な例（網羅していないリスト）には、１つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピューター読み取りな可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。

コンピューター読み取りな可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピューター読み取りな可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピューター読み取りな可能な信号媒体は、コンピューター読み取りな可能な記憶媒体以外の任意なコンピューター読み取りな可能な媒体であってもよく、該コンピューター読み取りな可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。

コンピューター読み取りな可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、ＲＦ等、又は上記ものの任意で適当な組合が含まれているが、これに限定されない。

１つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばＪａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋が含まれ、通常のプロシージャ向けプログラミング言語、例えば「Ｃ」言葉又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、１つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる（例えば、インターネットサービス事業者を利用してインターネットを介して接続できる）。

本発明が提供した技術案は、ユーザが入力した音声データによって、動的に音声合成パラメータを取得して音声識別結果に対応する応答テキストに対して音声変換を行い、変換して得られたオーディオデータをユーザの身元情報に合わせ、マン−マシンインタラクションの音声適応を実現し、マン−マシン音声インタラクションの実感を向上し、マン−マシン音声インタラクションの興味性を向上する。

本発明における幾つかの実施形態において、開示されたデバイス、装置と方法は、他の方法で開示され得ることを理解されたい。例えば、上記した装置は単なる例示に過ぎず、例えば、前記手段の分割は、論理的な機能分割のみであり、実際には、別の方法で分割することもできる。

前記の分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、１つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の一部又は全部を選択して、本実施形態の態様の目的を実現することができる。

また、本発明の各実施形態における各機能手段が１つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、２つ又は２つ以上の手段が１つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア＋ソフトウェア機能手段の形式で実現しても良い。

上記ソフトウェア機能手段の形式で実現する集積された手段は、１つのコンピューター読み取りな可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は１つの記憶媒体に記憶されており、１台のコンピュータ設備（パソコン、サーバ、又はネットワーク設備等）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本発明の各実施形態に記載された方法の一部の手順を実行させるための若干の命令を含む。前述の記憶媒体には、ＵＳＢメモリ、リムーバブルハードディスク、リードオンリーメモリ（ＲＯＭ，Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ，ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。

以上は、本発明の好ましい実施形態のみであり、本発明を制限しなく、本発明の精神および原則の範囲内で行われた変更、同等の置換、改善等は、全て本発明の特許請求の範囲に含めるべきである。

Claims

音声インタラクション方法であって、
第一端末設備が送信した音声データを受信することと、
前記音声データの音声識別結果及び声紋識別結果を取得することと、
前記音声識別結果に対する応答テキストを取得し、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことと、
変換して得られたオーディオデータを前記第一端末設備に送信することと、を含み、
前記音声識別結果に対する応答テキストを取得することは、
前記音声識別結果を利用して検索を行い、前記音声識別結果に対応するテキスト検索結果及び提示テキストを獲得すること、を含み、
前記提示テキストは、前記第一端末設備が前記テキスト検索結果に対して音声変換を行って取得した前記オーディオデータを再生する前に、ユーザに対して、続いて再生しようとするものを提示するためのものである、
音声インタラクション方法。
前記声紋識別結果は、ユーザの性別、年齢、地域、職業の中の少なくとも一種の身元情報を含む
請求項１に記載の音声インタラクション方法。
前記音声識別結果を利用して検索を行い、オーディオ検索結果を獲得したら、前記オーディオ検索結果を前記第一端末設備に送信すること、を更に含む
請求項１または請求項２に記載の音声インタラクション方法。
前記音声識別結果に対する応答テキストを取得することは、
前記音声識別結果及び声紋識別結果を利用して検索を行い、前記音声識別結果及び声紋識別結果に対応するテキスト検索結果及び提示テキストを獲得すること、を含む
請求項１〜３のいずれか一項に記載の音声インタラクション方法。
前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことは、
予め設定された身元情報と音声合成パラメータとの間の対応関係に基づいて、前記声紋識別結果に対応する音声合成パラメータを確定することと、
確定された音声合成パラメータを利用して前記応答テキストに対して音声変換を行うことと、を含む
請求項１〜４のいずれか一項に記載の音声インタラクション方法。
第二端末設備の前記対応関係に対する設定を受信し、保存すること、を更に含む
請求項５に記載の音声インタラクション方法。
前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことの前に、
前記第一端末設備がアダプティブ（adaptive）音声応答に設定されたかを判断し、「はい」であれば、続いて前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことを実行し、「いいえ」であれば、予め設定された又はデフォルトの音声合成パラメータを利用して前記応答テキストに対して音声変換を行うこと、を更に含む
請求項１〜６のいずれか一項に記載の音声インタラクション方法。
音声インタラクション装置であって、
第一端末設備が送信した音声データを受信するための受信手段と、
前記音声データの音声識別結果及び声紋識別結果を取得するための処理手段と、
前記音声識別結果に対する応答テキストを取得し、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うための変換手段と、
変換して得られたオーディオデータを前記第一端末設備に送信するための送信手段と、を含み、
前記変換手段は、前記音声識別結果に対する応答テキストを取得するとき、
前記音声識別結果を利用して検索を行い、前記音声識別結果に対応するテキスト検索結果及び提示テキストを獲得すること、を具体的に実行し、
前記提示テキストは、前記第一端末設備が前記テキスト検索結果に対して音声変換を行って取得した前記オーディオデータを再生する前に、ユーザに対して、続いて再生しようとするものを提示するためのものである、
音声インタラクション装置。
前記声紋識別結果は、ユーザの性別、年齢、地域、職業の中の少なくとも一種の身元情報を含む
請求項８に記載の音声インタラクション装置。
前記変換手段は、
前記音声識別結果を利用して検索を行い、オーディオ検索結果を獲得したら、前記オーディオ検索結果を前記第一端末設備に送信すること、を実行するために用いられる
請求項８に記載の音声インタラクション装置。
前記変換手段は、前記音声識別結果に対する応答テキストを取得するとき、
前記音声識別結果及び声紋識別結果を利用して検索を行い、前記音声識別結果及び声紋識別結果に対応するテキスト検索結果及び提示テキストを獲得すること、を具体的に実行する
請求項９または請求項１０に記載の音声インタラクション装置。
前記変換手段は、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うとき、
予め設定された身元情報と音声合成パラメータとの間の対応関係に基づいて、前記声紋識別結果に対応する音声合成パラメータを確定することと、
確定された音声合成パラメータを利用して前記応答テキストに対して音声変換を行うことと、を具体的に実行する
請求項８〜１１のいずれか一項に記載の音声インタラクション装置。
前記変換手段は、
第二端末設備の前記対応関係に対する設定を受信し、保存すること、を実行するためにさらに用いられる
請求項１２に記載の音声インタラクション装置。
前記変換手段は、前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことの前に、
前記第一端末設備がアダプティブ音声応答に設定されたかを判断し、「はい」であれば、続いて前記声紋識別結果を利用して前記応答テキストに対して音声変換を行うことを実行し、
「いいえ」であれば、予め設定された又はデフォルトの音声合成パラメータを利用して前記応答テキストに対して音声変換を行うこと、を更に具体的に実行する
請求項８〜１３のいずれか一項に記載の音声インタラクション装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するためのストレジと、を含む設備であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行されると、前記一つ又は複数のプロセッサに請求項１〜７のいずれか一項に記載の音声インタラクション方法を実現させる
設備。
コンピュータが実行可能な指令を含む記憶媒体であって、
前記コンピュータが実行可能な指令がコンピュータプロセッサによって実行されると、請求項１〜７のいずれか一項に記載の音声インタラクション方法を実行する
記憶媒体。
コンピュータが実行可能な指令を含むコンピュータプログラムであって、
前記コンピュータが実行可能な指令がコンピュータプロセッサによって実行されると、請求項１〜７のいずれか一項に記載の音声インタラクション方法を実行する
コンピュータプログラム。