JP2023515254A

JP2023515254A - ヒューマンマシン対話のための音声機能ジャンプ方法、電子機器及び記憶媒体

Info

Publication number: JP2023515254A
Application number: JP2022562335A
Authority: JP
Inventors: 洪博宋; 帥樊; 春李
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-04-15
Filing date: 2020-10-21
Publication date: 2023-04-12
Anticipated expiration: 2040-10-21
Also published as: WO2021208392A1; EP4137931A1; CN111506292A; CN111506292B; EP4137931A4; US20230352012A1; JP7342286B2

Abstract

本発明は、電子機器に用いられるヒューマンマシン対話のための音声機能ジャンプ方法であって、ユーザのヒューマンマシン対話の履歴データに基づいて予め分野遷移図を構築するステップと、外部音声を受信するステップと、前記外部音声がヒットする対話分野を確定するステップと、ヒットする対話分野が分野遷移図における複数の対話分野の一つに属するか否かを判断し、属さない場合には外部音声を無視し、属する場合にはヒットする対話分野に対応する音声機能にジャンプするステップと、を含み、前記分野遷移図は、複数の対話分野を含む有向グラフである、ことを特徴とするヒューマンマシン対話のための音声機能ジャンプ方法を開示する。本発明は、ユーザヒューマンマシン対話の履歴データに基づいて分野遷移図を生成し、分野遷移図に基づいて音声機能のジャンプを行うか否かを判断し、ヒューマンマシン対話の履歴データがユーザのインタラクション習慣を反映するため、分野遷移図と合わせることで明らかに異常な入力内容をシールドすることができ、タスク完成度及びインタラクション効率を向上させることができる。【選択図】図１

Description

本発明は人工知能の技術分野に関し、特に、ヒューマンマシン対話のための音声機能ジャンプ方法、電子機器及び記憶媒体に関する。

既存のヒューマンマシン対話における機能ディスパッチポリシーには、ルールベースのタスク型対話分野ディスパッチポリシーとルールベースの分野ジャンプポリシーの２種類が含まれる。

ルールベースのタスク型対話分野のディスパッチポリシーでは、ユーザが対話システムとインタラクションする時に入力内容に曖昧性がある場合、複数のセマンティック分野にヒットする（例えば、「周杰倫」と発話すると、音楽分野及び百科辞典分野にヒットする可能性がある）。ルールベースのディスパッチポリシーでは、配置された順序に従って最終的なセマンティック分野が決定される（例えば、音楽分野が配置テーブルの前に配置されている場合、音楽分野が選択される）。欠点は、規則的な配置順序が必ずしも正確とは限らないこと、又は一部のユーザに対してのみ正しいことである。

ルールベースの分野ジャンプポリシーにおいて、複数ラウンドの対話機能、例えば、ナビゲーション分野では、ルールベースの方法で、スロット溝を埋めるまで、ジャンプスイッチをオフにした場合に機能からジャンプすることができず、または、ジャンプスイッチをオンにした場合、ノイズの入力により、現在の分野からジャンプすることができるか否かが決定される可能性がある。

欠点は、分野ジャンプスイッチをオフにすると、ユーザは分野切り替えを行うことができず、明らかに不便であり、分野ジャンプスイッチをオンにすると、周囲のノイズや人声などによって誤識別が生じやすくなり、対話フローに影響を与えることにある。例えば、ナビゲーション機能において、ナビゲーションを開始するためにユーザが既に出発地と目的地を選択した場合、ノイズにより「天気」が誤入力されると、ナビゲーション機能からジャンプして対話コンテキストが失われる可能性があり、ナビゲーション機能のスロットフィリングインタラクションを再実行する必要がある。

本発明の実施例は、上述の技術的課題の少なくとも１つを解決するために、ヒューマンマシン対話のための音声機能ジャンプ方法、電子機器及び記憶媒体を提供する。

第１の態様によれば、本発明の実施例は、
電子機器に用いられるヒューマンマシン対話のための音声機能ジャンプ方法であって、
ユーザのヒューマンマシン対話の履歴データに基づいて予め分野遷移図を構築するステップと、
外部音声を受信するステップと、
外部音声がヒットする対話分野を確定するステップと、
ヒットする対話分野が分野遷移図における複数の対話分野の一つに属するか否かを判断し、属さない場合には外部音声を無視し、属する場合にはヒットした対話分野に対応する音声機能にジャンプするステップと、
を含み、
前記分野遷移図は、複数の対話分野を含む有向グラフである、
ことを特徴とするヒューマンマシン対話のための音声機能ジャンプ方法を提供する。

第２の態様によれば、本発明の実施例は、実行命令を含む１つまたは複数のプログラムを記憶する記憶媒体を提供する。実行命令は、本発明の上記いずれかのヒューマンマシン対話のための音声機能ジャンプ方法を実行するために、電子機器（コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない）によって読み取られて実行することができる。

第３の態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、本発明のヒューマンマシン対話のための音声機能ジャンプ方法が実行できるように、少なくとも１つのプロセッサによって命令を実行させることを特徴とする電子機器を提供する。

第４の態様によれば、本発明の実施例はさらに、記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムはプログラム命令を含み、プログラム命令がコンピュータによって実行されると、コンピュータに上記いずれかのヒューマンマシン対話のための音声機能ジャンプ方法を実行させる。

本発明の実施例による有益な効果は以下の通りである。ユーザヒューマンマシン対話の履歴データに基づいて分野遷移図を生成し、分野遷移図に基づいて音声機能のジャンプを行うか否かを判断する。ヒューマンマシン対話の履歴データがユーザのインタラクション習慣を反映するため、分野遷移図と合わせることで明らかに異常な入力内容（ユーザの習慣を超えるノイズなど）をシールドすることができ、タスク完成度及びインタラクション効率を向上させることができる。

本発明の実施例における技術案をより明確に説明するために、以下では、実施例の説明において使用する必要がある図面を簡単に紹介する。明らかに、図面は本発明のいくつかの実施例であり、当業者は創造的な労働をすることなくこれらの図面に基づいて他の図面を得ることもできる。

本発明のヒューマンマシン対話のための音声機能ジャンプ方法の一実施例のフローチャートである。本発明における分野遷移図の概略図である。本発明のヒューマンマシン対話のための音声機能ジャンプ方法の他の実施例のフローチャートである。本発明のヒューマンマシン対話のための音声機能ジャンプ方法を実現する対話システムの一実施例の概略図である。本発明のヒューマンマシン対話のための音声機能ジャンプ方法の別の実施例のフローチャートである。本発明の電子機器の一実施例の構造概略図である。

本発明の実施例の目的、技術案及び利点をより明確にするために、以下では図面を参照しながら本発明の実施例における技術案を説明する。明らかに、説明されている実施例は本発明の一部の実施例であり、全ての実施例ではない。これらの実施例に基づいて、当業者が創造的な労働をせずに得られた全ての他の実施例は、いずれも本発明の保護範囲に入る。

なお、本願の実施形態と実施形態の特徴とは、互いに矛盾することなければ、組み合わせることができる。

本発明は、例えば、プログラムモジュールなどの、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明することができる。プログラムモジュールには、通常、特定のタスクを実行したり、特定の抽象データ型を実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、分散コンピューティング環境で実施することもできる。これらの分散コンピューティング環境では、通信ネットワークを介して接続されたリモート処理デバイスによって、タスクが実行される。分散コンピューティング環境では、プログラムモジュールは、ストレージデバイスを含むローカル及びリモートのコンピューターストレージメディアに配置できる。

本発明では、「モジュール」、「デバイス」、「システム」などは、例えば、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアなどのコンピュータに適用される関連エンティティを指す。具体的には、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能なコンポーネント、実行スレッド、プログラム、及び／又はコンピュータであるが、これらに限定されない。また、サーバで実行するアプリケーションプログラムやスクリプトプログラム、サーバがコンポーネントと呼ばれることもできる。実行のプロセス及び／又はスレッドには、一つ又は複数のコンポーネントを含んでもよく、且つ、コンポーネントは、一台のコンピュータにローカライズされ、及び／又は二台以上のコンピュータの間に分布され、さまざまなコンピュータ可読媒体で実行することができる。コンポーネントは、一つ以上のデータパケットを有する信号によって、ローカル及び／又はリモートプロセスを介して、通信することができる。信号は、例えば、ローカルシステム、分散システムにおけるもう一つのコンポーネントと相互作用するデータ、及び／又はインターネットのようなネットワークで信号を介して他のシステムと相互作用するデータからの信号である。

最後に、本発明の明細書、請求の範囲及び図面における関係用語「第一」及び「第二」などは、一つの実体又は操作をもう一つの実体又は操作と区別するためのものだけであり、これらの実体又は操作がいかなるこのような実際の関係又は順序を特定し、示唆するためのものではない。また、用語「含む」、「有する」は、それらの要素だけでなく、明示的にリストされていない他の要素、又はそのようなプロセス、方法、オブジェクト、又は機器に固有の要素も含む。これ以上の制限が課されない場合、用語「含む」によって定義された要素は、その要素を含むプロセス、方法、オブジェクト、又は機器に他の同一要素があることを除外しない。

図１に示すように、本発明の実施例は、電子機器に用いられるヒューマンマシン対話のための音声機能ジャンプ方法を提供し、当該電子機器は、スマートオーディオ、車載装置、スマートテレビ、スマートフォン、タブレット、スマート腕時計等のいずれかのヒューマンマシン音声インタラクション機能を備える電子機器であってもよく、本発明はこれに限定されない。この方法には、以下のステップが含まれる。
Ｓ１０、電子機器は、ユーザのヒューマンマシン対話の履歴データに基づいて予め分野遷移図を構築し、分野遷移図は、複数の対話分野を含む有向グラフである。分野遷移図は、現在の分野状態に基づいて、次の分野を予測し、予測分野の信頼度を出力するために用いられる。
Ｓ２０、電子機器は、外部音声を受信する。例示的に、電子機器は、マイクロフォンを介してユーザ音声を収集する。
Ｓ３０、電子機器は、外部音声がヒットする対話分野を確定する。
Ｓ４０、電子機器は、ヒットする対話分野が分野遷移図における複数の対話分野の一つに属するか否かを判断し、属さない場合には外部音声を無視し、属する場合にはヒットする対話分野に対応する音声機能にジャンプする。

本実施例では、ユーザヒューマンマシン対話の履歴データに基づいて分野遷移図を生成し、分野遷移図に基づいて音声機能のジャンプを行うか否かを判断する。ヒューマンマシン対話の履歴データがユーザのインタラクション習慣を反映するため、分野遷移図と合わせることで明らかに異常な入力内容（ユーザの習慣外のノイズなど）をうまくシールドすることができ、タスク完成度及びインタラクション効率を向上させることができる。

いくつかの実施例では、ステップＳ１０において分野遷移図を構築する例は次のとおりである。ユーザが１ラウンドの対話を行うたびに、システムは、ユーザの環境情報、ユーザのインタラクション分野、及びインタラクション分野の切り替えパスを対話が終了するまで記録する。システムはインタラクションのフローを記録し、記録を生成する。

例えば、ユーザとのインタラクションフローは以下のとおりであり、ユーザはまず機器を起動させる。
ユーザ：会社までナビゲーションしてください。
機器：２つのルートが見つかりました。距離が最も近いルートと使用時間が最も少ないルートのうち、どちらをお選びになりますか。
ユーザ：使用時間が最も少ないルートです。
機器：ナビゲーションを開始します。
ユーザ：歌を聞きたいです。
機器：歌を再生します。
ユーザ：曲を変えてください。
ユーザ：明日の蘇州の天気はどうですか。
機器：明日、蘇州は晴れです．．．．．．。
ユーザ：終了してください。

上記のインタラクションフローにより、対応する分野遷移図（図２を参照）が生成される。弧上の数字は、当該分野でのインタラクション回数を示し、２はナビゲーション分野での２ラウンドのインタラクションを表す。分野遷移図は重み付け有向グラフであり、ユーザのオンラインインタラクションデータに基づいて定期的に更新される。ユーザの使用データの蓄積に伴い、ユーザの環境情報（例えば、インタラクションしているユーザ、現在の時間、位置、シーン、天気など）と合わせて、重み付けのある分野遷移図を形成することができる。重み付けが高いパスは、特定の環境でのユーザのインタラクション習慣を反映することができる。

以下では、二つの例を挙げて解決しようとする問題のシーンを説明する。

例１：高頻度のユーザ習慣により、誤った対話フローを減少し、インタラクション効率及びタスク完成度を向上させる。
ユーザＡは毎朝８時に自宅から会社まで車で移動し、車に乗り込んだ後に車載装置を起動させる。
ユーザＡ：会社までナビゲーションしてください。
機器：２つのルートが見つかりました。距離が最も近いルートと使用時間が最も少ないルートのうち、どちらをお選びになりますか。
この時、車上の放送音声は「周杰倫の歌」と識別される。
機器：周杰倫の歌を再生します。
上述の例のように、周囲の無関係な音（周杰倫の歌）が機器によって識別され、ユーザＡの複数ラウンドの対話が中断され、このような状況は望ましくない。分野遷移図により、ユーザが毎日８時頃にナビゲーション機能を使用し、ナビゲーションの複数ラウンドのインタラクション中に他の対話分野に遷移しないことが発見されている。他の分野のセマンティックが出現する（且つ信頼度が高くない）と、その入力は誤操作と見なされ、システムによってシールドされるため、ノイズによる誤入力が減少する。

例２：ユーザが不完全な文を入力すると、分野解析の曖昧さが生じるが、分野遷移図を通じてより正確に曖昧さを解消することができる。ユーザＡの装置は一台のスマートオーディオであり、最もよく使用される機能は音楽である場合、分野遷移図において、音楽を聴く重み付けが高い。ユーザが装置を起動した後、第一ラウンドのインタラクションで「劉徳華」と発話すると、音楽分野と百科辞典分野の両方に返り値と信頼度があり、分野遷移図により、ユーザの習慣を知ることができるため、ユーザの意図を正確に解析できる。

例示的に、分野遷移図には複数のサブ分野遷移図が含まれ、複数のサブ分野遷移図は複数の異なる環境情報に対応し、現在時間、現在位置、現在シーン及び現在天気のうちの少なくとも一つを含む。

いくつかの実施例において、ヒューマンマシン対話のための音声機能ジャンプ方法は、
電子機器が現在環境情報を取得するステップと、
電子機器が現在環境情報に基づいてマッチングするサブ分野遷移図を確定するステップと、
をさらに含み、
電子機器は、前記ヒットする対話分野が前記分野遷移図における複数の対話分野の一つに属するか否かを判断する場合、ヒットする対話分野が、マッチングするサブ分野遷移図における複数の対話分野の１つに属するかどうかを判断する。

図３は、本発明のヒューマンマシン対話のための音声機能ジャンプ方法の他の実施例のフローチャートである。この実施例において、分野遷移図における複数の対話分野のそれぞれに、対話ラウンド数が配置されている。図３に示す本実施例の方法には、さらに以下のステップが含まれる。
Ｓ２０１、電子機器は、外部音声を受信する前にサービスを提供する現在対話分野を確定し、現在対話分野は分野遷移図に属する。
Ｓ２０２、電子機器は、現在対話分野で完了した対話ラウンド数を確定する。
Ｓ２０３、完了した対話ラウンド数が、現在対話分野に配置された対話ラウンド数より少ない場合、電子機器は外部音声を無視する。

本実施例では、分野遷移図における各対話分野は、いずれもユーザの履歴対話データに基づいて対話ラウンド数を配置し（対話ラウンド数は、ユーザが当該対話分野で通常何回対話してから他の対話分野にジャンプすることを示す）、現在対話分野で既に行った対話ラウンド数が配置された対話ラウンド数より少ないことを確認した場合にのみ、ユーザの習慣によれば、現在対話分野の対話が完了していないことを確定できることを示すため、外部音声を無視する。

例示的に、ヒットする対話分野が分野遷移図における複数の対話分野の一つに属するか否かを判断する前に、さらに以下のステップを含む。
電子機器は、ヒットする対話分野に基づいて、対応するセマンティック情報信頼度を確定し、
セマンティック情報の信頼度が第一の設定閾値よりも大きい場合、ヒットする対話分野に対応する音声機能にジャンプする。

例示的に、ヒットする対話分野には複数の対話分野が含まれ、対応するセマンティック情報信頼度には複数のセマンティック情報信頼値が含まれている。ヒューマンマシン対話のための音声機能ジャンプ方法には、さらに以下のステップが含まれる。
複数のセマンティック情報信頼値における複数の値が第二の設定閾値より大きく、且つ第一の設定閾値以下である場合、電子機器は分野遷移図のコンテキスト状態に基づいて次の分野状態を予測し、
複数の値に対応する複数の対話分野の中に、次の分野状態に対応する対話分野が存在する場合、次の分野状態に対応するセマンティック機能にジャンプし、
存在しない場合、複数の値のうちの最大値に対応する対話分野のセマンティック機能にジャンプする。

例示的に、ヒューマンマシン対話のための音声機能ジャンプ方法には、さらに以下のステップが含まれる。
複数のセマンティック情報信頼値における最大値が第二の設定閾値以下である場合、電子機器は、外部音声の対話コンテキストに基づいて現在の対話シーンが高頻度インタラクションシーンであるか否かを確定する。対話コンテキストは、現在進行中の対話分野であってもよく、起動開始から現在分野への分野状態遷移パスである。高頻度インタラクションシーンである場合、電子機器は、高頻度インタラクションシーンに対応する分野遷移図に基づいて、外部音声に対応する音声機能をマッチングする。

例示的に、ユーザのインタラクション行動は、ログの形態で記録され、分野遷移図を生成し、アルゴリズム分類によってその中の異常行動を識別する。異常データは、手動による注釈で当該インタラクション記録が訂正又は削除され、分野遷移図が持続的に更新及びトレーニングされる。

図４は、本発明のヒューマンマシン対話のための音声機能ジャンプ方法を実現する対話システムの実施例の概略図であり、このシステムには、
ユーザ音声及びユーザ環境情報を取得するためのクライアント１と、
サービスリソースをディスパッチするためのアクセスサービスユニット２と、
オーディオを識別してｎｂｅｓｔ識別結果を得るための識別サービスユニット３と、
ｎｂｅｓｔ識別結果に対して自然言語処理を行ってｎｂｅｓｔセマンティック分野を得るためのＮＬＰサービスユニット４と、
ユーザ環境情報、対話コンテキスト情報及びｎｂｅｓｔセマンティック分野に基づいてヒット機能を確定するためのユーザ画像サービスユニット５と、
ヒットする機能にサービスして、ユーザの入力した音声に対応する最終対話結果を返すための対話サービスユニット６と、
が含まれる。

図５は、本発明のヒューマンマシン対話のための音声機能ジャンプ方法の別の実施例のフローチャートであり、この実施例には以下のステップが含まれる。
まず、ユーザが入力した音声を識別サービス（同時に環境情報を携帯してアクセスサービスにアップロードする）に送信し、識別サービスはｎｂｅｓｔ識別結果を返信する。
ｎｂｅｓｔ識別結果はセマンティックサービスから別々に要求され、それに対してセマンティック解析を行い、セマンティック情報の信頼度に応じてそれぞれ処理を行う。
ユーザ環境情報、対話コンテキスト情報及び現在ｎｂｅｓｔセマンティック分野を携帯して、ユーザ画像サービスを要求する。
ユーザ画像サービスは分野遷移図状態に基づいて、ユーザ環境情報と合わせてヒットするセマンティック分野を計算する。
ｎｂｅｓｔセマンティック結果の信頼度において、ｔｈｒｅｓｈｏｌｄ１より大きい信頼度があるか否かを判断する。例えば、ｔｈｒｅｓｈｏｌｄ１の値の範囲が［０．９、１］であり、本実施例ではｔｈｒｅｓｈｏｌｄ１の値は０．９である。
ｔｈｒｅｓｈｏｌｄ１より大きい信頼度がある場合、信頼度が最も高いセマンティック分野をヒットする分野として選択し、当該セマンティック情報が正確であるとして、対話サービスを直接要求して応答を返す。
ｎｂｅｓｔセマンティック結果の信頼度がｔｈｒｅｓｈｏｌｄ１より小さく、ｔｈｒｅｓｈｏｌｄ２より大きく、且つｎｂｅｓｔセマンティック結果が複数の分野であり、曖昧性の問題が存在する場合、分野遷移図のコンテキスト状態に基づいて、次の分野状態を予測する。ｎｂｅｓｔ中のセマンティック分野にマッチングすれば当該分野を選択し、対話サービスを要求する。ｎｂｅｓｔにマッチングするセマンティックサービスがない場合、ｎｂｅｓｔセマンティック信頼度優先度に従ってセマンティック分野を選択する。例示的に、ｔｈｒｅｓｈｏｌｄ２の値の範囲は［０．６、０．９］であり、本発明の実施例におけるｔｈｒｅｓｈｏｌｄ２の値は０．７である。
ｎｂｅｓｔセマンティック結果の信頼度がｔｈｒｅｓｈｏｌｄ２より小さい場合、当該インタラクションの対話コンテキストを発見し、分野遷移図の高頻度インタラクションパスをマッチングする。分野遷移図の予測結果がユーザ入力のセマンティック結果とマッチングしない場合、当該入力を破棄し、そうでなければ当該セマンティックの対話応答を返す。今回のインタラクション対話コンテキストが高頻度インタラクションパスではない場合、規則方法に従って、ｎｂｅｓｔセマンティック信頼度の優先度順にセマンティック分野を選択する。

本発明は、ユーザのインタラクション習慣に基づいて分野遷移図を生成し、ユーザのインタラクション過程における識別結果のｎｂｅｓｔ結果に基づいて、環境情報や対話コンテキスト等の情報と合わせて、ユーザの意図をより効果的に識別し、分野ジャンプの正確率を向上させる。明らかに異常な入力内容（ノイズなど）に対し、分野切り替え状態図と合わせてノイズ入力をシールドし、タスク完成度及びインタラクション効率を向上させる。

上記の各方法の実施例について、簡単に説明するために、一連の動作の統合として説明されているが、当業者は、説明されている動作の順序に限定されるものではなく、本願明細書に記載されているステップのいくつかは、本願明細書に記載されている他の順序を採用しても、同時に実施されてもよいことが認識されるであろう。次に、明細書に記載された実施の形態はいずれも好ましい実施の形態に属し、関連する動作およびモジュールは必ずしも本発明に必須ではないことが当業者によって認識されるべきである。上記の実施例では、各実施例の説明に重きが置かれているが、ある実施例で詳しく述べられていない部分については、他の実施の形態の説明を参照されたい。

いくつかの実施例において、本発明の実施例は、実行命令を含む１つまたは複数のプログラムを記憶する不揮発性コンピュータ可読記憶媒体を提供する。実行命令は、本発明の上記いずれかのヒューマンマシン対話のための音声機能ジャンプ方法を実行するために、電子機器（コンピュータ、サーバ、又はネットワーク機器などを含むがこれらに限定されない）によって読み取られて実行することができる。

いくつかの実施例において、本発明の実施例はさらに、不揮発性コンピュータ可読記憶媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムにおけるプログラム命令がコンピュータによって実行されると、コンピュータに上記のいずれかのヒューマンマシン対話のための音声機能ジャンプ方法を実行させる。

いくつかの実施例において、本発明の実施例はさらに、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、ヒューマンマシン対話のための音声機能ジャンプ方法が実行できるように、少なくとも１つのプロセッサによって命令を実行させる電子機器を提供する。

いくつかの実施例において、本発明の実施例はさらに、コンピュータプログラムが記憶された記憶媒体を提供し、当該プログラムがプロセッサによって実行される時に、ヒューマンマシン対話のための音声機能ジャンプ方法が実現される。

図６は、本発明の他の実施例のヒューマンマシン対話のための音声機能ジャンプ方法を実行する電子機器のハードウェア構造概略図である。図６に示すように、当該機器には、１つまたは複数のプロセッサ６１０およびメモリ６２０が含まれ、図６では１つのプロセッサ６１０を例に取る。

ヒューマンマシン対話のための音声機能ジャンプ方法を実行する機器は、入力装置６３０と出力装置６４０とをさらに含むことができる。

プロセッサ６１０、メモリ６２０、入力装置６３０と出力装置６４０はバスまたは他の方法で接続することができ、図６ではバスによる接続を例に取る。

メモリ６２０は不揮発性コンピュータ可読記憶媒体として、不揮発性ソフトウェアプログラム、不揮発性コンピュータ実行可能プログラムおよびモジュールを記憶することができる。例えば、本発明の実施例におけるヒューマンマシン対話のための音声機能ジャンプ方法に対応するプログラム命令／モジュールを記憶することができる。プロセッサ６１０は、メモリ６２０に記憶されている不揮発性ソフトウェアプログラム、命令およびモジュールを実行することによって、サーバの各種機能応用およびデータ処理を実行し、即ち、上記実施例のヒューマンマシン対話のための音声機能ジャンプ方法を実現する。

メモリ６２０は、プログラム記憶領域とデータ記憶領域を含むことができる。プログラム記憶領域は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができる。データ記憶領域は、ヒューマンマシン対話のための音声機能ジャンプ装置の使用に応じて作成されたデータなどを記憶することができる。さらに、メモリ６２０は、高速ランダムアクセスメモリ及び不揮発性メモリを含むことができ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性固体記憶装置を含むことができる。いくつかの実施例において、メモリ６２０は、プロセッサ６１０から離れて設置されたメモリを含むことができ、ネットワークを介してヒューマンマシン対話のための音声機能ジャンプ装置に接続することができる。上記ネットワークには、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびそれらの組合せが含まれるが、これらに限定されない。

入力装置６３０は、入力された数値や文字情報を受信し、ヒューマンマシン対話のための音声機能ジャンプ装置のユーザ設定および機能制御に関連する信号を生成することができる。出力装置６４０は、ディスプレイなどの表示装置を含むことができる。

１つまたは複数のモジュールはメモリ６２０に記憶され、モジュールが１つまたは複数のプロセッサ６１０によって実行されると、上記いずれかの方法実施例におけるヒューマンマシン対話のための音声機能ジャンプ方法を実行する。

上記の製品は、本発明の実施形態によって提供される方法を実行することができ、方法を実行するための対応する機能モジュール及び有利な効果を有する。本実施形態で詳細に説明されない技術的詳細については、本発明の実施形態が提供される方法を参照する。

本発明の実施形態の電子デバイスは、以下のデバイスを含むが、これらに限定されない様々な形態で存在する。

（１）モバイル通信デバイス：これらのデバイスは、その特徴がモバイル通信機能を備えることであり、音声及びデータ通信を提供することを主な目標として、スマートフォン（例えば、ｉｐｈｏｎｅ（登録商標））、マルチメディア携帯電話、機能携帯電話、ローエンド携帯電話などを含む。

（２）ウルトラモバイルパソコンデバイス：これらのデバイスは、パソコンのカテゴリーに属し、計算及び処理の機能を持ち、一般にモバイルインターネットアクセスの特性を持って、例えば、ｉＰａｄ（登録商標）などのＰＤＡ、ＭＩＤ及びＵＭＰＣデバイスなどを含む。

（３）ポータブルエンターテイメントデバイス：これらのデバイスは、マルチメディアコンテンツを表示及び放送でき、オーディオ、ビデオプレーヤー（例えば、ｉＰｏｄ（登録商標））、ハンドヘルドゲームデバイス、電子書籍、インテリジェントおもちゃ及びポータブルカーナビゲーションデバイスを含む。

（４）サーバ：コンピューティングサービスを提供するデバイスである。サーバの構成は、プロセッサ、ハードディスク、メモリ、システムバスなどを含む。サーバ及び汎用コンピュータはアーキテクチャが似るが、信頼性の高いサービスを提供する必要があるため、処理能力、安定性、信頼性、セキュリティ、スケーラビリティ、及び管理性などの方面での要求が高い。

（５）データ交換機能を備えたその他の電子デバイス。

上記の装置の実施形態は、単に例示的なものであり、分離するコンポーネントとして記載されたユニットは、物理的に分離されるものであってもよく、分離されないものであってもよい。ユニットとして表示されるコンポーネントは、物理ユニットであってもよく、物理ユニットではなくてもよい。即ち、一つの場所に配置することもでき、複数のネットワークユニットに分散することもできる。実際のニーズに応じて、いくつかのモジュール又はすべてのモジュールを選択することができ、実施形態の目的を達成するようになる。

上記の実施形態の説明を通じて、当業者は、各実施形態がソフトウェア及び共通のハードウェアプラットフォームによって実現することができ、もちろん、ハードウェアによって実現することもできることを明確に理解することができる。この理解に基づいて、上記の技術方案の本質又は関連技術に貢献する部分は、ソフトウェア製品の形式で具体化でき、コンピュータソフトウェア製品は、例えば、ＲＯＭ／ＲＡＭ、磁気ディスク、コンパクトディスクなどのコンピュータ可読記憶媒体に格納でき、コンピュータデバイス（パーソナルコンピュータ、サーバ又はネットワークデバイスなどである）に、各々の実施形態又は実施形態のある部分に記載された方法を実行させるように、いくつかの命令を含む。

最後に説明すべきことは、上記の実施例は、本発明の技術案を説明するためにのみ使用され、本発明を限定するものではない。前述の実施例を参照して本発明を詳細に説明したが、当業者であれば、依然として各実施例に記載の技術案を修正するか、又はそのうちの一部の技術的特徴を同等に置き換えることができることを理解すべきである。これらの修正又は置き換えは、対応する技術案の本質を、本発明の各実施例の技術案の精神及び範囲から逸脱させない。

Claims

電子機器に用いられるヒューマンマシン対話のための音声機能ジャンプ方法であって、
前記電子機器がユーザのヒューマンマシン対話の履歴データに基づいて予め分野遷移図を構築するステップと、
前記電子機器が外部音声を受信するステップと、
前記電子機器が前記外部音声によってヒットする対話分野を確定するステップと、
前記電子機器が前記ヒットする対話分野が前記分野遷移図における複数の対話分野の一つに属するか否かを判断し、属さない場合には前記外部音声を無視し、属する場合には前記ヒットする対話分野に対応する音声機能にジャンプするステップと、
を含み、
前記分野遷移図は、複数の対話分野を含む有向グラフである、
ことを特徴とするヒューマンマシン対話のための音声機能ジャンプ方法。
前記分野遷移図における複数の対話分野のそれぞれには、対話ラウンド数が配置されており、
前記電子機器が、前記外部音声を受信する前にサービスを提供する現在対話分野を確定するステップと、
前記電子機器が前記現在対話分野で完了した対話ラウンド数を確定するステップと、
前記完了した対話ラウンド数が、前記現在対話分野に配置された対話ラウンド数より少ない場合、前記外部音声を無視するステップと、
を含み、
前記現在対話分野は前記分野遷移図に属する、
ことを特徴とする請求項１に記載のヒューマンマシン対話のための音声機能ジャンプ方法。
前記ヒットする対話分野が前記分野遷移図における複数の対話分野の一つに属するか否かを判断する前に、さらに、
前記電子機器が前記ヒットする対話分野に基づいて、対応するセマンティック情報信頼度を確定するステップと、
前記セマンティック情報信頼度が第一の設定閾値よりも大きい場合、前記ヒットする対話分野に対応する音声機能にジャンプするステップと、
を含むことを特徴とする請求項１に記載のヒューマンマシン対話のための音声機能ジャンプ方法。
前記ヒットする対話分野には複数の対話分野が含まれ、対応する前記セマンティック情報信頼度には複数のセマンティック情報信頼値が含まれており、
前記複数のセマンティック情報信頼値における複数の値が第二の設定閾値より大きく、且つ第一の設定閾値以下である場合、前記電子機器は前記分野遷移図のコンテキスト状態に基づいて次の分野状態を予測するステップと、
前記複数の値に対応する複数の対話分野の中に、前記次の分野状態に対応する対話分野が存在する場合、前記次の分野状態に対応するセマンティック機能にジャンプするステップと、
存在しない場合、前記複数の値のうちの最大値に対応する対話分野のセマンティック機能にジャンプするステップと、
を含むことを特徴とする請求項３に記載のヒューマンマシン対話のための音声機能ジャンプ方法。
前記複数のセマンティック情報信頼値における最大値が第二の設定閾値以下である場合、前記電子機器は、前記外部音声の対話コンテキストに基づいて現在の対話シーンが高頻度インタラクションシーンであるか否かを確定するステップと、
高頻度インタラクションシーンである場合、前記電子機器は、前記高頻度インタラクションシーンに対応する分野遷移図に基づいて、前記外部音声に対応する音声機能をマッチングするステップと、
をさらに含むことを特徴とする請求項４に記載のヒューマンマシン対話のための音声機能ジャンプ方法。
前記分野遷移図には複数のサブ分野遷移図が含まれており、前記複数のサブ分野遷移図は複数の異なる環境情報に対応し、
前記電子機器が現在環境情報を取得するステップと、
前記電子機器が前記現在環境情報に基づいてマッチングするサブ分野遷移図を確定するステップと、
をさらに含み、
前記電子機器は、前記ヒットする対話分野が前記分野遷移図における複数の対話分野の一つに属するか否かを判断する場合、前記ヒットする対話分野が、前記マッチングするサブ分野遷移図における複数の対話分野の１つに属するかどうかを判断する、
ことを特徴とする請求項１に記載のヒューマンマシン対話のための音声機能ジャンプ方法。
前記環境情報には、現在時間、現在位置、現在シーン及び現在天気のうちの少なくとも一つが含まれる、
ことを特徴とする請求項６に記載のヒューマンマシン対話のための音声機能ジャンプ方法。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、
請求項１～７のいずれか１項に記載のヒューマンマシン対話のための音声機能ジャンプ方法のステップが実行できるように、前記少なくとも１つのプロセッサによって前記命令を実行させることを特徴とする電子機器。
コンピュータプログラムが記憶されている記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～７のいずれか１項に記載のヒューマンマシン対話のための音声機能ジャンプ方法のステップが実現できる、ことを特徴とする記憶媒体。