JP2023505917A

JP2023505917A - 音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体

Info

Publication number: JP2023505917A
Application number: JP2021576945A
Authority: JP
Inventors: フアン、ジジョウ; ディン、シチアン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-20
Filing date: 2021-06-02
Publication date: 2023-02-14
Also published as: WO2022105188A1; KR20220071152A; CN112382290B; EP4027335A4; US20230290347A1; CN112382290A; EP4027335A1

Abstract

本開示は人工知能及び音声技術の分野に関する音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体を開示する。具体的な実現方案は、ユーザが入力した音声命令に対して音声認識とニーズ解析を行い、解析された未知のニーズに応答して、前記ニーズ解析の結果を使用して問い合わせエンティティ情報と問い合わせ内容を取得し、前記問い合わせエンティティと通信することで前記問い合わせ内容に対応する回答情報を取得し、前記回答情報を使用して前記ユーザに第１の音声応答を返す。本開示は、音声アシスタントの本来のニーズを満たす面での盲点を補い、ユーザの新しいニーズを可能な限り問い合わせ、ユーザ体験を向上させることができる。【選択図】図２

Description

本開示は、コンピュータアプリケーション技術の分野に関し、特に、人工知能及び音声技術の分野に関する。
[優先権情報]
本開示は、出願日が２０２０年１１月２０日であり、出願番号が２０２０１１３０７５８６８であり、発明の名称が「音声インタラクション方法、装置、機器、及びコンピュータ記憶媒体」である中国特許開示の優先権を主張する。

本部分は、特許請求の範囲に記載された本発明の実施形態の背景またはコンテキストを提供することを意図する。ここの説明は、本部分に含まれているという理由で従来の技術に見なされることはない。

音声インタラクション技術の発展に伴い、ユーザはスマートスピーカー、スマートフォンなどの端末機器と音声インタラクションを行うことができる。端末機器のオペレーティングシステムに付属する音声アシスタント以外に、ますます多くのアプリケーションが音声インタラクション技術が搭載されている。ユーザは、音声命令を入力することによって対応するサービスを取得することができ、両手をかなり解放することができる。

従来の音声インタラクションシナリオでは、ユーザのニーズを事前に列挙できないため、ユーザが入力した音声命令を音声認識し、ニーズを理解した後、常に、音声アシスタントがユーザの新しいニーズを解決できない場合に直面し、「すみません、私はまだこの情報を知りません」などの応答のみをユーザに返す。このような応答方式はユーザに悪い体験をもたらし、ユーザのニーズを満たすことができない。

これに鑑みて、本開示は、ユーザの新しいニーズを満たし、ユーザ体験を向上させるために、音声インタラクション方法、装置、機器及び記憶媒体を提供する。

第１の態様によれば、音声インタラクション方法を提供し、
ユーザが入力した音声命令に対して音声認識とニーズ解析を行うステップと、
解析された未知のニーズに応答して、前記ニーズ解析の結果を使用して問い合わせエンティティ情報と問い合わせ内容を取得し、前記問い合わせエンティティと通信することで前記問い合わせ内容に対応する回答情報を取得するステップと、
前記回答情報を使用して前記ユーザに第１の音声応答を返すステップと、を含む。

第２の態様によれば、音声インタラクション装置を提供し、
ユーザが入力した音声命令に対して音声認識とニーズ解析を行うための音声処理ユニットと、
前記音声処理ユニットが解析された未知のニーズに応答して、前記ニーズ解析の結果を使用して問い合わせエンティティ情報と問い合わせ内容を取得するための対話対策ユニットと、
前記問い合わせエンティティと通信することで前記問い合わせ内容に対応する回答情報を取得するための自動問い合わせユニットと、
前記回答情報を使用して前記ユーザに第１の音声応答を返すための音声インタラクションユニットと、を含む。

第３の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。

上記の技術案により分かるように、本開示は、ユーザの新しいニーズを解析して取得する場合、新しいニーズを解決できない音声応答をユーザに簡単に返信するのではなく、問い合わせエンティティと通信することで問い合わせ内容に対応する回答情報を取得し、回答情報を使用してユーザに音声応答を返す。このような方式は、音声アシスタントの本来のニーズを満たす面での盲点を補い、ユーザの新しいニーズを可能な限り問い合わせ、ユーザ体験を向上させることができる。

本明細書に説明された内容は、本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解される。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本発明の実施例を適用することができる例示的なシステムアーキテクチャを示す。本開示の実施例１により提供される主な方法のフローチャートである。本開示の実施例２により提供される実現可能な方法のフローチャートである。本開示の実施例３により提供される実現可能な方法のフローチャートである。本開示の実施例４により提供される実現可能な方法のフローチャートである。本開示の実施例５により提供される音声インタラクション装置の構造図である。本開示の実施例を実現するための電子機器のブロック図である。

以下、図面に基づいて、本開示の例示の実施例を表現する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。

図１は本発明の実施例を適用することができる例示的なシステムアーキテクチャを示す。図１に示すように、当該システムアーキテクチャは、端末機器１０１及び１０２、ネットワーク１０３、及びサーバ１０４を含むことができる。ネットワーク１０３は、端末機器１０１、１０２とサーバ１０４との間に通信リンクを提供する媒体である。ネットワーク１０３は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末機器１０１及び１０２を使用してネットワーク１０３を介してサーバ１０４とインタラクションすることができる。端末機器１０１及び１０２に、音声インタラクションアプリケーション、ウェブブラウザアプリケーション、通信アプリケーションなどの様々なアプリケーションがインストールされていることができる。

端末機器１０１及び１０２は音声インタラクションをサポートする様々な電子機器であってもよく、スクリーンを備えたデバイスであってもよく、スクリーンを備えていないデバイスであってもよい。スマートフォン、タブレット、スマートスピーカー、スマートテレビなどが含まれるが、これらに限定されない。本発明により提供される音声インタラクション装置は、上記のサーバ１０４に設置して実行することができ、処理機能が強い端末機器１０１及び１０２に設置して実行することもできる。複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するために）として実現することができ、単一のソフトウェアまたはソフトウェアモジュールとして実現することもでき、ここでは具体的に限定しない。

例えば、音声インタラクション装置は上記のサーバ１０４に設置して実行し、端末機器１０１はユーザが入力した音声命令をネットワーク１０３を介してサーバ１０４に送信する。サーバ１０４は、本発明の実施例により提供される方法を使用して処理した後、処理結果を端末機器１０１に返し、さらに、端末機器１０１によってユーザに提供して、ユーザとの間の音声インタラクションを実現する。

サーバ１０４は、単一のサーバであってもよく、複数のサーバによって構成されるサーバグループであってもよい。図１の端末機器、ネットワーク及びサーバの数は単なる例示的なものであることを理解することができる。実現需要に応じて、任意の数を有する端末機器、ネットワーク及びサーバであってもよい。

実施例１
図２は本開示の実施例１により提供される主な方法のフローチャートである。図２に示すように、当該方法は、以下のようなステップを含むことができ、
２０１では、ユーザが入力した音声命令に対して音声認識とニーズ解析を行う。

ユーザが入力した音声命令に対して、まず、音声認識を行う。音声認識で取得されたテキストを取得した後、ニーズ解析を行う。ニーズ解析の目的は、ユーザの具体的なニーズ（意図とも呼ばれることができる）を理解して、ユーザに正確なサービスを提供するためである。ニーズ解析は、自然言語処理のセマンティック理解を使用し、当該部分の内容は、既存の比較的成熟した実現方式を使用することができ、ここでは詳細に説明しない。

２０２では、解析された未知のニーズに応答して、ニーズ解析の結果を使用して問い合わせエンティティ情報と問い合わせ内容を取得し、問い合わせエンティティと通信することで問い合わせ内容に対応する回答情報を取得する。

解析して取得したのが既知のニーズである場合、通常、当該既知のニーズに対応する応答方式または音声応答が既に記憶されており、当該既知のニーズに対応する応答方式を直接に使用して応答または音声応答を行う。このような状況は詳細に説明しない。

未知のニーズ、すなわち新しいニーズを解析して取得した場合、本開示の実施例により提供される方式を使用して処理する。

上記の問い合わせエンティティとは、ニーズ解析の結果においてユーザが取得しようとする情報に対応するエンティティオブジェクトを指し、問い合わせ内容とは、ニーズ解析の結果においてユーザが取得したい情報の内容を指す。具体的には、後続の実施例で詳細に説明する。

２０３では、回答情報を使用してユーザに第１の音声応答を返す。

当該実施例から分かるように、本開示は、ユーザの新しいニーズを解析して取得する場合、新しいニーズを解決できない音声応答をユーザに簡単に返信するのではなく、問い合わせエンティティと通信することで問い合わせ内容に対応する回答情報を取得し、回答情報を使用してユーザに音声応答を返す。このような方式は、音声アシスタントの本来のニーズを満たす面での盲点を補い、ユーザの新しいニーズを可能な限り問い合わせ、ユーザ体験を向上させることができる。

なお、本開示の音声応答に関する「第１」、「第２」、「第３」など、例えば、「第１の音声応答」、「第２の音声応答」、及び「第３の音声応答」については、順次、数量、及び名前上の制限を備えず、異なる音声応答のみを区別するために用いられる。

実施例２
図３は本開示の実施例２により提供される実現可能な方法のフローチャートである。図３に示すように、当該方法は、以下のようなステップを含むことができ、
３０１では、ユーザが入力した音声命令に対して音声認識とニーズ解析を行う。

３０２では、既知のニーズを解析して取得するか否かを判断し、そうである場合、３０３を実行し、そうでない場合、３０４を実行する。

３０３では、既知のニーズに対応する回答情報を使用してユーザに第４の音声応答を返し、プロセスを終了する。

通常、既知のニーズが対応する回答情報が既に記憶されているため、当該回答情報を直接に使用して音声合成を行い、または既存の音声セグメントを使用してスプライスなどの処理を行った後、第４の音声応答を返すことができる。

３０４では、ユーザに第２の音声応答を返して回答情報をしばらくしてから提供することを報知する。

未知のニーズ、すなわち新しいニーズについて、まず、例えば、「メモしました、すぐに最新のメッセージを問い合わせ、５分以内にあなたに回答する予定です」、「受け取りました、今からメッセージを探して、しばらくしてから回答します」などのこのような予め設定された音声応答をユーザに返す。音声アシスタントが回答を一生懸命に取得してしばらくしてから回答することをユーザに明確させ、ユーザ体験を向上させる。

３０５では、ニーズ解析の結果を使用して問い合わせエンティティ情報と問い合わせ内容を取得し、問い合わせエンティティと通信することでユーザ問い合わせ内容に対応する回答情報を取得する。

なお、本開示で提供される方式は、主に音声命令が問い合わせ類の音声命令であり、つまり、ユーザが音声命令の問い合わせによっていくつかの情報を取得することを望む。例えば、「安寧荘の列車の切符販売代理店は、列車の切符の代用領収書を印刷できますか」、「全聚徳ダック店は現在配達できますか」、「華聯スーパーは扇風機を販売していますか」などである。

ニーズ解析後に取得された新しいニーズについて、コア情報の抽出を行うことができる。コア情報は、少なくとも問い合わせエンティティ情報と問い合わせ内容を含む。抽出方式は、セマンティック理解の方式に基づいて実現することができ、ここでは詳細に説明しない。

例えば、新しいニーズ「安寧荘の列車の切符販売代理店は、列車の切符の代用領収書を印刷できますか」について、その中から抽出された問い合わせエンティティは「安寧荘の列車の切符販売代理店」であり、問い合わせ内容は「列車の切符の代用領収書を印刷する」である。さらに、ドメイン知識ベースから通信方式情報、位置情報などの問い合わせエンティティ情報を取得することができる。例えば、地図知識ベースから「安寧荘の列車の切符販売代理店」の電話を照会することができる。

問い合わせエンティティ情報に対応する通信方式に従って問い合わせエンティティと少なくとも１回のインタラクションを行って、問い合わせエンティティに問い合わせ内容を送信し、問い合わせエンティティから返される回答情報を取得する。上記の例を続けて、音声アシスタントが電話の方式で「安寧荘の列車の切符販売代理店」に電話をして以下のインタラクションを行い、
「音声アシスタント：こんにちは、私はカスタマーサービス＊＊（音声アシスタントのブランド名）、安寧荘の列車の切符販売代理店ですか？
安寧荘の列車の切符販売代理店：はい。

音声アシスタント：列車の切符の代用領収書を印刷できますか？
安寧荘の列車の切符販売代理店：できません。

音声アシスタント：ご協力ありがとうございます、さようなら」
以上のインタラクションにおける音声アシスタントの問い合わせ音声は、予め設定されたテンプレートに基づいて問い合わせ内容と問い合わせエンティティ情報を組み合わせて生成することができる。上記のインタラクションによって取得された回答内容は「できません」である。

電話インタラクション方式に加えて、問い合わせエンティティの他の通信方式が取得された場合、ウィーチャットインタラクション、電子メールインタラクション、専用のインスタント通信アプリケーションなどの他の通信方式を使用してインタラクションすることもできる。

３０６では、回答情報を使用してユーザに第１の音声応答を返す。

本ステップでは、予め設定されたテンプレートに基づいて、上記の回答情報を使用して第１の応答テキストを生成し、第１の応答テキストを使用して音声合成または音声スプライスを行った後に第１の音声応答を取得することができる。

上記の例を続けて、テンプレートが「『通信方式』で『問い合わせエンティティ』『回答内容』『照会内容』の確認」であると仮定するため、「電話で確認し、安寧荘の列車の切符販売代理店は列車の切符の代用領収書を印刷できません」をユーザに返すことができる。

３０７では、ニーズ解析の結果を既知のニーズとして記録し、取得された回答メッセージを対応して記憶する。

記録後、他のユーザが当該既知のニーズを問い合わせる場合、対応する回答メッセージを使用して音声応答を生成し、当該音声応答をユーザに返し、応答効率を向上させることができる。

好ましい実施形態として、既知のニーズとそれに対応する第１の音声応答については、エージング時間を設置して情報の時効性と有効性を確保することができる。エージング時間に達して後、当該既知のニーズとそれに対応する第１の音声応答が削除され、再度に問い合わせエンティティに問い合わせを行うことで取得する必要がある。

実施例３
図４は本開示の実施例３により提供される実現可能な方法のフローチャートである。図４に示すように、当該方法は、以下のようなステップを含むことができ、
ステップ４０１～４０５は、上記の実施例２のステップ３０１～３０５と同じである。

４０６では、問い合わせエンティティ情報に対応する候補エンティティ情報を取得し、候補エンティティと通信することで候補回答情報を取得する。

回答情報の取得がより柔軟かつ包括的であることは、ユーザのニーズを可能な限り満たすことを確保するためである。本実施例では、問い合わせエンティティ情報を取得する以外に、さらに、問い合わせエンティティ情報に対応する候補エンティティ情報を取得して、候補エンティティから候補回答情報の取得を試みる。

好ましい実施形態として、問い合わせエンティティ情報に対応する候補エンティティ情報を取得する時、ドメイン知識ベースから問い合わせエンティティと同じタイプに属するエンティティを取得し、次に、取得されたエンティティと問い合わせエンティティとの間の相関度に基づいて、取得されたエンティティから少なくとも一つを候補エンティティとして選択し、候補エンティティ情報を取得することができる。

新しいニーズ「安寧荘の列車の切符販売代理店は、列車の切符の代用領収書を印刷できますか」について、その中から問い合わせエンティティ「安寧荘の列車の切符販売代理店」、問い合わせ内容「列車の切符の代用領収書を印刷する」を抽出した後、地図分野の知識ベースから「安寧荘の列車の切符販売代理店」と同じ分野のエンティティを取得することができ、例えば、「首都体育館南路列車の切符販売代理店」、「清河鉄道駅」、「建材城西路列車の切符販売代理店」などである。地図分野では、同じタイプのエンティティとエンティティとの間の相関度は、空間距離に具現されることが多いため、取得された各エンティティと問い合わせエンティティとの間の空間距離を計算し、小さいものから大きいもの順次にその中から少なくとも一つを候補エンティティとして選択し、候補エンティティ情報を取得することができる。例えば、「清河鉄道駅」は「安寧荘の列車の切符販売代理店」に最も近いため、それを候補エンティティとし、地図分野の知識ベースから「清河鉄道駅」の電話を取得することができる。次に、電話で清河鉄道駅に列車の切符の代用領収書を印刷できるかどうかを問い合わせし、取得された返信メッセージを候補返信メッセージとする。

４０７では、問い合わせエンティティから取得された回答情報を使用してユーザに第１の音声応答を返し、上記の候補回答情報を使用してユーザに第３の音声応答を返す。

第１の音声応答と類似し、第３の応答音声は、予め設定されたテンプレートを使用して候補回答情報を組み合わせする方式で生成することもできる。生成された第１の音声応答と第３の音声応答は、１つずつ再生することができ、スプライス後に再生することもできる。

上記の例を続けて、電話で小營建材城列車の切符販売代理店に列車の切符の代用領収書を印刷できるかどうかを問い合わせし後、取得された候補返信メッセージが印刷できると仮定すると、ユーザに第１の音声応答と第２の音声応答「電話で確認し、安寧荘の列車の切符販売代理店は列車の切符の代用領収書を印刷できませんが、あなたから近くの清河鉄道駅では列車の切符の代用領収書を印刷できる」を返す。

当該実施例から分かるように、候補エンティティの拡張及び候補エンティティから候補回答情報を取得することによって、ユーザに返す音声応答がより柔軟かつ包括的になり、ユーザのニーズを可能な限り満たすことができる。

実施例４
図５は本開示の実施例４により提供される実現可能な方法のフローチャートである。図５に示すように、当該方法は、以下のようなステップを含むことができ、
ステップ５０１～５０５は上記の実施例２のステップ３０１～３０５と同じである。

５０６では、問い合わせエンティティから回答情報が取得されていないか、または、問い合わせエンティティから取得されたのが否定的な回答であるかどうかを判断し、そうである場合、５０７を実行し、そうでない場合、５０９を実行する。

問い合わせエンティティとの通信構築に成功せず、問い合わせエンティティとの通信中に問い合わせ内容に対応する回答情報が取得できなかったなどの場合が存在することができ、問い合わせエンティティから取得されたのが否定的な回答であることもでき、例えば、安寧荘の列車の切符販売代理店に列車の切符の代用領収書を印刷できるかどうかを問い合わせし、取得された回答は「できません」である。この場合、ユーザの実際のニーズを十分に満たすことができない可能性があり、すなわちユーザは列車の切符の代用領収書を印刷できる場所を探したいと望む。従って、後続のステップ５０７及び５０８を使用して候補エンティティから候補回答情報をさらに取得することができる。

しかし、問い合わせエンティティで肯定的な回答を取得した場合、ユーザの実際のニーズを既に満たしている可能性があるため、問い合わせエンティティから取得された回答情報を直接使用してユーザに第１の音声応答を返すことができる。

５０７では、問い合わせエンティティ情報に対応する候補エンティティ情報を取得し、候補エンティティと通信することで候補回答情報を取得する。

５０８では、問い合わせエンティティから取得された回答情報を使用してユーザに第１の音声応答を返し、上記の候補回答情報を使用してユーザに第３の応答音声を返す。

上記のステップ５０７及び５０８は、実施例３の４０６及び４０７と同じであり、ここで詳細に説明しない。

５０９では、問い合わせエンティティから取得された回答情報を使用してユーザに第１の音声応答を返す。

また、上記の実施例３及び実施例４では、予め設定された期間内に上記の回答情報と候補回答情報が取得されなかった場合、ユーザに予め設定された第４の音声応答を返す。いくつかの特殊な場合、問い合わせエンティティ及び候補エンティティからすべて回答情報が取得されなかった可能性があり、そうすると、ユーザが待つ時間が長すぎてユーザ体験に影響を与えるのを防ぐために、ユーザに第２の音声応答を返した後にタイミングを開始することができる。予め設定された期間が経過した後に上記の回答情報と候補回答情報が取得されなかった場合、例えば、「申し訳ありませんが、安寧荘の列車の切符販売代理店が代用領収書を印刷できるかどうかの情報が取得できませんでした、他の方法で取得してみてください」などの予め設定された音声応答をユーザに返す。

上記の実施例３及び実施例４では、ニーズ解析の結果を既知のニーズとして記録し、取得された回答メッセージ（問い合わせエンティティから取得された回答メッセージと候補エンティティから取得された候補回答メッセージを含む）を対応して記憶することができる。好ましい実施形態として、回答メッセージを記憶する場合、構造化の回答メッセージ組織形式を使用することができる。例えば、
エンティティ：安寧荘の列車の切符販売代理店
問い合わせ内容：列車の切符の代用領収書を印刷する
問い合わせ結果：できません
エンティティ：清河鉄道駅
問い合わせ内容：列車の切符の代用領収書を印刷する
問い合わせ結果：できません
以上は、本開示により提供される方法に対する詳細説明であり、以下は、実施例を組み合わせて本開示により提供される装置を詳細に説明する。

実施例５
図６は本開示の実施例５により提供される音声インタラクション装置の構造図である。当該装置は、サーバ側のアプリケーションに位置するか、またはサーバ側のアプリケーション内のプラグインまたはソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などの機能ユニットに位置することもできるか、または、強い計算能力を有するコンピュータ端末に位置することもでき、本発明の実施例はこれについて特に限定しない。図６に示すように、当該装置は、音声処理ユニット０１と、対話対策ユニット０２と、自動問い合わせユニット０３と、音声インタラクションユニット０４を含むことができ、ニーズ記録ユニット０５をさらに含むこともできる。その中、各構成ユニットの主な機能は以下のようであり、
音声インタラクションユニット０４がユーザが入力した音声命令を受信した後、音声処理ユニット０１は、ユーザが入力した音声命令に対して音声認識を行うために用いられる。

音声処理ユニット０１がニーズ解析を行って未知のニーズを取得した場合、対話対策ユニット０２は、ニーズ解析の結果を使用して問い合わせエンティティ情報と問い合わせ内容を取得する。

ニーズ解析後に取得された未知のニーズ、すなわち新しいニーズについて、コア情報の抽出を行うことができる。コア情報は、少なくとも問い合わせエンティティ情報と問い合わせ内容を含む。抽出方式は、セマンティック理解の方式に基づいて実現することができる。さらに、ドメイン知識ベースから通信方式情報、位置情報などの問い合わせエンティティ情報を取得することができる。

自動問い合わせユニット０３は、問い合わせエンティティと通信することで問い合わせ内容に対応する回答情報を取得するために用いられる。

具体的には、自動問い合わせユニット０３は、問い合わせエンティティ情報に対応する通信方式に従って問い合わせエンティティと少なくとも１回のインタラクションを行って、問い合わせエンティティに問い合わせ内容を送信し、問い合わせエンティティから返される回答情報を取得することができる。

音声インタラクションユニット０４は、回答情報を使用してユーザに第１の音声応答を返すために用いられる。

その中の一つの実現方式として、予め設定されたテンプレートに基づいて、上記の回答情報を使用して第１の応答テキストを生成し、第１の応答テキストを使用して音声合成または音声スプライスを行った後に第１の音声応答を取得することができる。

さらに、音声インタラクションユニット０４は、さらに、音声処理ユニット０４が未知のニーズを解析して取得した後、ユーザに第１の音声応答を返す前に、ユーザに第２の音声応答を返して回答情報をしばらくしてから提供することを報知するために用いられる。

ニーズ記録ユニット０５は、ニーズ解析の結果を既知のニーズとして記録し、回答情報を対応して記憶するために用いられる。

音声処理ユニット０１が既知のニーズを解析して取得した場合、音声インタラクションユニット０４は既知のニーズに対応する回答情報を直接に使用してユーザに音声応答を返す。

好ましい実施形態として、対話対策ユニット０２は、さらに、問い合わせエンティティ情報に対応する候補エンティティ情報を取得するために用いられる。

具体的には、対話対策ユニット０２は、問い合わせエンティティが属するドメイン知識ベースから問い合わせエンティティと同じタイプに属するエンティティを取得し、取得されたエンティティと問い合わせエンティティとの間の相関度に基づいて、取得されたエンティティから少なくとも一つを候補エンティティとして選択し、候補エンティティ情報を取得することができる。

自動問い合わせユニット０３は、さらに、候補エンティティと通信することで候補回答情報を取得するために用いられる。

好ましい実施形態として、問い合わせエンティティと通信することで問い合わせ内容に対応する回答情報が取得されなかった場合、または、問い合わせエンティティと通信することで取得された回答情報が否定的な回答である場合、自動問い合わせユニット０３は、候補エンティティと通信することで候補回答情報を取得することができる。

音声インタラクションユニット０４は、さらに、候補エンティティ情報と候補回答情報を使用して、ユーザに第３の応答音声を返すために用いられる。

好ましい実施形態として、音声インタラクションユニット０４は、さらに、予め設定された期間内に、自動問い合わせユニット０３が回答情報と候補回答情報が取得されなかった場合、ユーザに予め設定された第４の音声応答を返すために用いられる。

本開示の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図７に示すように、本開示の実施例の音声インタラクション方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図７に示すように、当該電子機器は、一つ又は複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に基づいて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施方式では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図７では、一つのプロセッサ７０１を例とする。

メモリ７０２は、本開示により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶して、前記少なくとも一つのプロセッサが本開示により提供される音声インタラクション方法を実行することができるようにする。本開示の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本開示により提供される音声インタラクション方法を実行するためのコンピュータ命令を記憶する。

メモリ７０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本開示の実施例における音声インタラクション方法に対応するプログラム命令／モジュールように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ７０１は、メモリ７０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における音声インタラクション方法を実現する。

メモリ７０２は、ストレージプログラム領域とストレージデータ領域とを含むことができ、その中、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ７０２は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ７０２は、プロセッサ７０１に対して遠隔に設置されたメモリを含むことができ、これらの遠隔メモリは、ネットワークを介して当該電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定しない。

音声インタラクション方法の電子機器は、入力装置７０３と出力装置７０４とをさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３、及び出力装置７０４は、バス又は他の方式を介して接続することができ、図７では、バスを介して接続することを例とする。

入力装置７０３は、入力された数字又は文字情報を受信することができ、及び当該電子機器のユーザ設置及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置７０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、ＬＣＤ（液晶ディスプレイ）、ＬＥＤ（発光ダイオード）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定しない。いくつかの実施方式では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳIＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、ＰＬＤ（プログラマブルロジックデバイス））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

音声インタラクション方法であって、
ユーザが入力した音声命令に対して音声認識とニーズ解析を行うステップと、
解析された未知のニーズに応答して、前記ニーズ解析の結果を使用して問い合わせエンティティ情報と問い合わせ内容を取得し、前記問い合わせエンティティと通信することで前記問い合わせ内容に対応する回答情報を取得するステップと、
前記回答情報を使用して前記ユーザに第１の音声応答を返すステップと、を含む、
音声インタラクション方法。
ニーズ解析を行って前記未知のニーズを取得したステップの後、前記ニーズ解析の結果を使用して前記ユーザに第１の音声応答を返すステップの前に、
前記ユーザに第２の音声応答を返して、回答情報をしばらくしてから提供することを報知するステップをさらに含む、
請求項１に記載の音声インタラクション方法。
前記問い合わせ内容に対応する回答情報を取得した後、
前記ニーズ解析の結果を既知のニーズとして記録し、前記回答情報を対応して記憶するステップをさらに含む、
請求項１に記載の音声インタラクション方法。
前記問い合わせエンティティ情報に対応する候補エンティティ情報を取得するステップと、
候補エンティティと通信することで候補回答情報を取得するステップと、
前記候補エンティティ情報と前記候補回答情報を使用して、前記ユーザに第３の応答音声を返すステップと、をさらに含む、
請求項１に記載の音声インタラクション方法。
前記問い合わせエンティティ情報に対応する候補エンティティ情報を取得するステップは、
前記問い合わせエンティティが属するドメイン知識ベースから前記問い合わせエンティティと同じタイプに属するエンティティを取得するステップと、
取得されたエンティティと前記問い合わせエンティティとの間の相関度に基づいて、前記取得されたエンティティから少なくとも一つを候補エンティティとして選択し、候補エンティティ情報を取得するステップと、を含む、
請求項４に記載の音声インタラクション方法。
前記候補エンティティと通信することで候補回答情報を取得するステップは、
前記問い合わせエンティティと通信することで前記問い合わせ内容に対応する回答情報が取得されなかった場合、または、前記問い合わせエンティティと通信することで取得された前記回答情報が否定的な回答である場合、前記候補エンティティと通信することで候補回答情報を取得するステップを含む、
請求項４に記載の音声インタラクション方法。
前記問い合わせエンティティと通信することで前記問い合わせ内容に対応する回答情報を取得するステップは、
前記問い合わせエンティティ情報に対応する通信方式に従って前記問い合わせエンティティと少なくとも１回のインタラクションを行って、前記問い合わせエンティティに前記問い合わせ内容を送信し、前記問い合わせエンティティから返される回答情報を取得するステップを含む、
請求項１に記載の音声インタラクション方法。
予め設定された期間内に前記回答情報と前記候補回答情報が取得されなかった場合、前記ユーザに予め設定された第４の音声応答を返すステップをさらに含む、
請求項４に記載の音声インタラクション方法。
音声インタラクション装置であって、
ユーザが入力した音声命令に対して音声認識とニーズ解析を行うための音声処理ユニットと、
前記音声処理ユニットによって解析された未知のニーズに応答して、前記ニーズ解析の結果を使用して問い合わせエンティティ情報と問い合わせ内容を取得するための対話対策ユニットと、
前記問い合わせエンティティと通信することで前記問い合わせ内容に対応する回答情報を取得するための自動問い合わせユニットと、
前記回答情報を使用して前記ユーザに第１の音声応答を返すための音声インタラクションユニットと、を含む、
音声インタラクション装置。
前記音声インタラクションユニットは、さらに、前記音声処理ユニットがニーズ解析を行って未知のニーズを取得したことの後、前記ユーザに第１の音声応答を返すことの前に、前記ユーザに第２の音声応答を返して回答情報をしばらくしてから提供することを報知するために用いられる、
請求項９に記載の音声インタラクション装置。
前記音声インタラクション装置は、
前記ニーズ解析の結果を既知のニーズとして記録し、前記回答情報を対応して記憶するためのニーズ記録ユニットをさらに含む、
請求項９に記載の音声インタラクション装置。
前記対話対策ユニットは、さらに、前記問い合わせエンティティ情報に対応する候補エンティティ情報を取得するために用いられ、
前記自動問い合わせユニットは、さらに、候補エンティティと通信することで候補回答情報を取得するために用いられ、
前記音声インタラクションユニットは、さらに、前記候補エンティティ情報と前記候補回答情報を使用して、前記ユーザに第３の応答音声を返すために用いられる、
請求項９に記載の音声インタラクション装置。
前記対話対策ユニットは、具体的には、前記問い合わせエンティティが属するドメイン知識ベースから前記問い合わせエンティティと同じタイプに属するエンティティを取得し、取得されたエンティティと前記問い合わせエンティティとの間の相関度に基づいて、前記取得されたエンティティから少なくとも一つを候補エンティティとして選択し、候補エンティティ情報を取得するために用いられる、
請求項１２に記載の音声インタラクション装置。
前記自動問い合わせユニットは、具体的には、前記問い合わせエンティティと通信することで前記問い合わせ内容に対応する回答情報が取得されなかった場合、または、前記問い合わせエンティティと通信することで取得された前記回答情報が否定的な回答である場合、前記候補エンティティと通信することで候補回答情報を取得するために用いられる、
請求項１２に記載の音声インタラクション装置。
前記自動問い合わせユニットは、具体的には、前記問い合わせエンティティ情報に対応する通信方式に従って前記問い合わせエンティティと少なくとも１回のインタラクションを行って、前記問い合わせエンティティに前記問い合わせ内容を送信し、前記問い合わせエンティティから返される回答情報を取得するために用いられる、
請求項９に記載の音声インタラクション装置。
前記音声インタラクションユニットは、さらに、予め設定された期間内に前記自動問い合わせユニットが前記回答情報と前記候補回答情報が取得されなかった場合、前記ユーザに予め設定された第４の音声応答を返すために用いられる、
請求項１２に記載の音声インタラクション装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１～８のいずれかの一つに記載の音声インタラクション方法を実行する、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～８のいずれかの一つに記載の音声インタラクション方法を実行させる、
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１～８のいずれかの一つに記載の音声インタラクション方法を実行させる、コンピュータプログラム。