JP7300435B2

JP7300435B2 - 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP7300435B2
Application number: JP2020185935A
Authority: JP
Inventors: ウー，ヂェン; ウー，イーファン; リィァン，フゥア; グー，ヂィアシィァン; パン，シンユァン; パイ，ヂンファン; ヂィア，レイ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2019-11-14
Filing date: 2020-11-06
Publication date: 2023-06-29
Anticipated expiration: 2040-11-06
Also published as: US20210151039A1; CN110866090A; US11830482B2; JP2021081712A

Description

本開示の実施例は、主に人工知能の分野に関し、より具体的には、音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体に関する。

音声インタラクション技術は、人間（ヒューマン）と機械（マシン）とが音声でインタラクションする技術であり、自然な対話と類似した音声インタラクション体験を実現する。ヒューマン・マシンインタラクションは、コンピュータ時代のマウスおよびキーボードを画面に合わせたインタラクションから、スマートフォン時代のタッチスクリーンとの直接インタラクションまで発展してきている。ヒューマン・マシンインタラクションする方式は、ますます簡単になり、インタラクションのハードルはますます低くなっている。人工知能およびモバイルインターネットの活発な発展に伴い、人間と人間との対話と類似した自然な音声インタラクションは、ヒューマン・マシンインタラクションの新しい方式になりつつある。音声インタラクションは、入力帯域幅が広く、高精度、移動性が良く、使用ハードルが低いなどの利点を兼ね備えるため、ヒューマン・マシンインタラクションの最優先インタラクション方式の１つである。音声インタラクションでヒューマン・マシンインタラクションを実現することにより、情報処理の効率を向上させるとともに、ヒューマン・マシンインタラクションも容易になる。しかしながら、この音声インタラクションするプロセスでは解決すべき問題が依然として多く存在している。

本開示の例示的な実施例によれば、音声インタラクションするための技術案が提供される。

本開示の第１の態様では、受信された音声信号に対応するテキスト情報を決定するステップと、前記テキスト情報内の要素にラベル付けすることにより、前記テキスト情報のラベル付け情報を取得するステップと、前記ラベル付け情報に基づいて前記テキスト情報の第１の意図情報を決定するステップと、前記第１の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の語義を決定するステップと、を含む、音声インタラクションするための方法が提供される。

本開示の第２の態様では、受信された音声信号に対応するテキスト情報を決定するように構成されるテキスト情報決定モジュールと、前記テキスト情報内の要素にラベル付けすることにより、前記テキスト情報のラベル付け情報を取得するように構成されるラベル付けモジュールと、前記ラベル付け情報に基づいて前記テキスト情報の第１の意図情報を決定するように構成される第１の意図決定モジュールと、前記第１の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の語義を決定するように構成される語義決定モジュールと、を含む、音声インタラクションするための装置が提供される。

本開示の第３の態様では、一つまたは複数のプロセッサと、一つまたは複数のプログラムを記憶するための記憶装置とを含む電子機器であって、一つまたは複数のプログラムが一つまたは複数のプロセッサによって実行される場合、一つまたは複数のプロセッサが、本開示の第１の態様に係る方法を実現する電子機器が提供される。

本開示の第４の態様では、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、本開示の第１の態様に係る方法が実現されるコンピュータ読み取り可能な記憶媒体が提供される。
本開示の第５の態様では、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、第１の態様の実施例に記載の方法が実行される。

なお、発明の概要に説明された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。

本開示の各実施例の上記および他の特徴、利点および態様は、図面を参照した以下の詳細な説明により、より明らかになる。図面では、同一または類似の符号は、同一または類似の要素を表す。
本開示の複数の実施例を実現可能な環境の一例の概略図を示す。本開示の実施例に係る音声インタラクションするためのプロセスのフローチャートを示す。本開示の実施例に係る語義を決定するためのプロセスのフローチャートを示す。本開示の実施例に係る語義を決定するためのプロセスのフローチャートを示す。本開示の実施例に係る音声インタラクションするための装置のブロック図を示す。本開示の複数の実施例を実施可能なコンピューティング機器のブロック図を示す。

本開示の実施例を図面を参照して以下により詳細に説明する。図面に本開示のいくつかの実施例が示されているが、本発明は様々な形態で実現することができ、本明細書に記載の実施例に限定されると解釈されるべきではないことを理解されたい。逆に、これらの実施例を提供する目的は、本開示がより明確かつ完全で理解されることである。なお、本開示の図面および実施例は例示するものに過ぎず、本開示の保護範囲を限定するものではないと理解されたい。

本開示の実施例の説明において、「含む」という用語およびその類似の用語が、開放的な含む、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」ことを語義すると理解されるべきである。「一実施例」または「当該実施例」という用語は、「少なくとも一実施例」として理解されるべきである。「第１の」、「第２の」などの用語は、異なる対象または同一対象を指すことができる。以下の説明では、他の明示的および暗黙的な定義も含まれ得る。

音声インタラクションを実現するプロセスでは、基本的に１回のウェイクアップで一回のインタラクションを行う方法が採用される。このインタラクションする方法は、ウェイクアップワード検出技術と製品戦略とを組み合わせたものである。その主な特徴は、当該機器をアクティブ化するウェイクアップワードをユーザが言い終わるたびに、内蔵されたウェイクアップワード検出モジュールは、当該ウェイクアップワード信号を検出し、リスニングの認識を開始する。音声の終点を検出するか、予め設定された持続時間に達すると、リスニングを終了し、そのプロセスで受信された音声を認識し、ユーザのニーズに応えるプロセスに到達する。

しかしながら、現在、ヒューマン・マシンインタラクションする方式には多くの問題が存在する。まず、ユーザが要求を開始するたびに、機器をウェイクアップする必要があるため、非常に不便である。次に、ユーザが機器をウェイクアップしたが機器に話しかけていないと、機器が誤応答する可能性があり、ユーザ体験が悪くなる。問題の鍵は、認識された情報が機器に対して開始された要求情報であるか否かを区別して、ユーザの本当の要求に適時に応答し、非ユーザ要求を自動的にブロックすることである。ユーザが開始した要求が応答されない場合、または非ヒューマン・マシンインタラクションの要求が誤応答された場合、ユーザ体験が大きく損なわれる。したがって、ヒューマン・マシンインタラクション／非ヒューマン・マシンインタラクションの判定精度を如何に向上させるかは、複数回のインタラクションを行う案の最も中心的な問題である。

本開示の実施例によれば、音声インタラクションするための改良された技術案が提供される。この技術案では、語義理解技術を導入することにより、音声認識されたテキスト情報に基づいて語義結果を導出することができる。また、改良されたディープニューラルネットワークに基づく語義理解モデルと、オンラインのリアルタイム介入メカニズムと組み合わせて、高い精度の語義結果を取得することができる。また、ディープニューラルネットワークに基づいて、上記の語義結果、コンテキスト状態、音響信頼度などの情報から、当該テキスト情報がヒューマン・マシンインタラクション情報であるか非ヒューマン・マシン情報であるかの判定結果を取得してもよい。この方法により、音声インタラクション機器が取得された音声信号に応答する必要があるか否か、および音声信号の具体的な要求を複数の次元から判定することができるため、音声インタラクション制御をより正確に且つスマートに実現し、ユーザ体験を向上させることができる。

図１は、本開示の複数の実施例を実現可能な環境１００の概略図を示す。この当該例示的な環境１００では、ヒューマン・マシンインタラクションが実行されるとき、取得された音声信号１１０が管理機器１２０に送信される。

音声信号１１０は、ユーザのインタラクションを実行する任意の音声インタラクション機器によって取得することができる。いくつかの実施例では、ユーザが音声インタラクション機器に話しかけると、音声信号１１０を取得することができる。いくつかの実施例では、音声インタラクション機器がユーザの周りに存在する場合、ユーザが他の人とインタラクションするとき、音声インタラクション機器は、音声信号１１０を取得することができる。いくつかの実施例では、音声信号１１０は、テレビ内の話し声など、音声インタラクション機器によって受信される他の音声信号であってもよい。いくつかの実施例では、音声信号１１０は、１回のウェイクアップで複数回のインタラクションを実行する音声インタラクション機器によって得られる。上記の例は、単に本開示を説明するためのものであり、本開示を具体的に限定するものではない。

音声インタラクション機器は、ユーザの音声指示を収集するための関連付けられた集音器（例えば、１つまたは複数のマイクロフォン）を有してもよい。音声インタラクション機器は、サウンドを再生するための関連付けられたサウンドプレーヤ（例えば、１つまたは複数のスピーカ）を有してもよい。

音声インタラクション機器は、音声信号を介して制御および/またはインタラクションすることができる任意の電子機器であってもよい。音声インタラクティブ機器の例は、スマートスピーカ、音声インタラクションテレビボックス、スマート家電デバイス、音声チューター、スマートロボット、マップナビゲーションデバイス、スマートウェアラブルデバイスなどを含むが、これらに限定されない。音声インタラクション機器は、音声アシスタントアプリケーション、スマートカーマシンシステム、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオおよびビデオ再生アプリケーション、スマートアシスタントアプリケーションなどの音声インタラクションアプリケーションがインストールされた任意の他の電子機器であってもよい。このような音声インタラクションアプリケーションをインストール可能な電子デバイスの例は、スマートフォン、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケーター、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルナビゲーションデバイス、パーソナルデジタルアシスタント（ＰＤＡ）、オーディオ/ビデオプレーヤー、デジタルカメラ/撮像機、測位デバイス、電子書籍デバイス、ゲームデバイス、またはこれらの組み合わせを含むが、これらに限定されない。

例えば、音声インタラクション機器がスマートスピーカである場合、音声命令は、「＊＊歌手の＊＊歌を再生する」などであってもよい。音声インタラクション機器は、音声信号が正しく認識された後、対応する歌を検索してユーザに再生することができる。

音声インタラクション機器とインタラクションする間に、通常、ウェイクアップワードを介して音声インタラクション機器をウェイクアップしてインタラクション状態に入らせる必要がある。音声インタラクション機器は、１回のウェイクアップで複数回のインタラクションをサポートすることができる。１回のウェイクアップで複数回のインタラクションを行うシーンでは、音声インタラクション機器がウェイクアップされた後、機器が動作状態である限り、例えば、音を出している限り、ユーザは、ウェイクアップワードを再度出す必要はなく、音声インタラクション機器と直接インタラクションすることができる。これにより、インタラクションのハードルが低くなり、ユーザのインタラクションに対する意欲が向上する。いくつかの実施例では、インタラクションが天気のクエリなどのクエリカテゴリに属している場合、音声インタラクション機器が応答した後の一定時間内に、ユーザは、機器を再びウェイクアップする必要がなく、インタラクションを続行することができる。

音声信号１１０は、処理のために管理機器１２０に送信される。管理機器１２０は、受信した音声信号１１０に基づいて、当該音声信号１１０がユーザによって出された、音声インタラクション機器を実行させるための命令であるか否かを決定する。そうである場合、管理機器１２０は、実行命令を含む語義結果１３０、または取得されるコンテンツを含む語義結果１３０を、処理のために音声インタラクション機器に送信する。

いくつかの実施例では、管理機器１２０は、音声インタラクション機器によってアップロードされた音声データを処理するの、クラウドに配置されたコンピューティング機器であってもよい。いくつかの実施例では、管理機器１２０および音声インタラクション機器は同一機器である。したがって、音声信号１１０は、音声信号１１０を受信する音声インタラクション機器によって処理されてもよい。音声インタラクション機器は、音声信号１１０が命令を実行するか否かを直接認識する。いくつかの実施例では、管理機器１２０は、パーソナルコンピュータ、サーバーコンピュータ、ハンドヘルドまたはラップトップデバイス、モバイルデバイス（例えば、携帯電話、携帯情報端末（ＰＤＡ）、メディアプレーヤーなど）、マルチプロセッサシステム、家庭用電化製品、小型コンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などを含むが、これらに限定されない。

図１に示される環境は、単に例示的なものであり、本開示を具体的に限定するものではないことを理解されたい。

図２は、本開示の実施例に係る音声インタラクションするためのプロセス２００のフローチャートを示す。いくつかの実施例では、プロセス２００は、図６に示される機器で実現されてもよい。次に、本開示の実施例に係る音声インタラクションするためのプロセス２００を、図１を参照して説明する。理解を容易にするために、以下の説明で言及される具体的なデータは、例示的なものであり、本開示の保護範囲を限定することを意図するものではない。

ブロック２１０において、管理機器１２０は、受信された音声信号１１０に対応するテキスト情報を決定することができる。一例として、ユーザからの音声信号１１０を、例えば、「午後８時にジェイ・チョウ（周傑倫）の歌を聴く」などのテキスト情報に変換することができる。

ブロック２２０において、管理機器１２０は、テキスト情報内の要素にラベル付けすることにより、テキスト情報のラベル付け情報を取得することができる。いくつかの実施例では、管理機器１２０は、上記の要素内のエンティティ要素にラベル付けすることができ、当該エンティティ要素は、時間、数字、人物名、および地名のうちの少なくとも１つを含む。一例として、管理機器１２０は、「今日の北京の天気はどうですか」内の「今日」を時間としてラベル付けし、「今日の北京の天気はどうですか」内の「北京」を地名としてラベル付けすることができる。

いくつかの実施例では、管理機器１２０は、所定の知識ベースに基づいて前記要素の分野をラベル付けすることもできる。一例として、分野知識ベースおよび所定のシーン知識に合わせて分野の概念（ここでは、概念とはラベル付け情報である）をラベル付けすることができる。分野の概念は、音楽分野の歌手「ジェイ・チョウ」、歌、ビデオ分野のドラマ、映画、アニメーション、俳優などの分野エンティティの概念を含んでもよい。分野の概念は、音楽分野の「聞く」、「歌」、ビデオ分野の「視聴」、「ビデオ」などの分野非エンティティの概念を含んでもよい。

いくつかの実施例では、管理機器１２０は、コンテキスト自由文法に基づいて要素内の置き換え可能な要素にラベルを付けることもできる。一例として、「Ａに電話してください」のテキスト情報について、コンテキスト自由文法に基づいて、その中の「Ａ」を連絡先の概念としてラベル付けすることができる。

また、曖昧さまたは誤ったラベル付けを回避するために、所定のオフラインのトレーニングされたエンティティリソースに基づいてコンテキストの曖昧さ解消を行うことができる。

代替的または追加的に、Ｋ最適経路アルゴリズムを用いて順位が低く、冗長な候補概念を除外することにより、概念の導出を加速することができる。

いくつかの実施例では、管理機器１２０は、概念規約によって最終候補概念シーケンスを得ることができる。概念規約は、サブ概念の再利用を容易にすることができ、１対１の上下位概念規約（例えば、ラベル付けされた「歌手」の概念を「人物」として規約することができる）と、多対１の組み合わせ概念規約（例えば、ラベル付けされた「ふさわしい」+「シーン（例えば、寝る前）」+「聞く」の概念を「シーン」に規約することができる）とを含む。もう一方、概念規約は、逆順位の候補を減らすことで概念の導出を加速化することもできる。

ブロック２３０において、管理機器１２０は、ラベル付け情報に基づいてテキスト情報の第１の意図情報を決定することができる。いくつかの実施例では、管理機器１２０は、ラベル付け情報と意図情報とのマッピング関係に基づいて、ラベル付け情報に対応する複数の候補意図情報を決定することができる。一例として、ラベル付けされた概念のシーケンスに基づいて逆順位の意図を引き出し、候補意図リストを取得することができ、ここで、ラベル付けされた概念および意図のインデックス情報が予め構築される。例えば、「歌」、「…の歌を聴く」というラベルづけから、いずれも「音楽を再生する」という意図を引き出すことができる。

次に、管理機器１２０は、複数の候補意図情報から第１の意図情報を選択することができる。一例として、管理機器１２０は、複数の候補意図情報内の一部の候補意図情報が所定の制約条件を満たさないことに応答して、一部の候補意図情報を複数の候補意図情報から削除することができる。一例として、各候補意図の経路導出を順次に行うとともに、プルーニング戦略と組み合わせてプルーニングすることができる。当業者は、互いに重複しない一組のラベル付けされた概念のシーケンスが１つの経路であり、プルーニング戦略が当該概念のシーケンスに対する所定の制約条件であることを理解すべきである。

いくつかの実施例では、当該所定の制約条件は、ラベル付けされた概念と意図との対応関係、またはラベル付けされた概念（情報単位）の順序が正しいか否か、またはラベル付けされた概念が複数の値（つまり、配列フォマットをサポートするか否か）を有してもよいか否かである。

なお、候補経路の順位付けについて上位ｋ個（ｔｏｐ-ｋ）の候補経路を選択し、順位付け条件は、概念シーケンスカバレッジ長、ｎｇｒａｍ確率、概念重み、および概念数を含んでもよいことを理解されたい。候補経路における対応する意図をさらに概念に規約できる場合は、概念の導出に引き続き参加できるため、この方法は意図の再帰的な導出をサポートする。

次に、管理機器１２０は、付けされたスコアが閾値を超えた経路を語義ツリー変換し、経路に対応する意図をルートノードとし、経路内の概念のシーケンス（すなわち、ラベル付け情報）を第１の層ノードとすることができる。

ブロック２４０において、管理機器１２０は、第１の意図情報およびラベル付け情報に基づいて、テキスト情報の語義を決定することができる。一般に、意図情報に基づいて分野情報を直接決定することができる。さらに、スロット情報はラベル付け情報のサブセットであるため、ラベル付け情報に基づいてスロット情報を決定することもできる。したがって、管理機器１２０は、決定された分野、意図、およびスロット情報をテキスト情報の語義として生成することができる。

このようにして、入力されたテキスト情報内の各セグメントに概念をラベル付けし、事前定義されたシーン知識に基づいて概念の組み合わせおよび導出を行うことにより、分野、意図、およびスロットを一体化した語義ツリーを取得することができる。従来の技術と比較して、音声信号１１０に適合する語義結果１３０をさらに柔軟に導出することができる。

図３に本開示の実施例に係る語義を決定するための詳細なプロセス３００のフローチャートが示されている。いくつかの実施例では、プロセス３００は、図６に示される機器で実現されてもよい。本開示の実施例に係る音声インタラクションのためのプロセス３００を、図１を参照して以下に説明する。理解を容易にするために、以下の説明で言及される具体的なデータは例示的なものであり、本開示の保護範囲を限定することを意図していない。

ブロック３１０において、管理機器１２０は、第１の意図情報およびラベル付け情報に基づいて、テキスト情報の第１の分野情報および第１のスロット情報を決定することができる。いくつかの実施例では、意図情報に基づいて分野情報を直接決定してもよい。さらに、スロット情報はラベル付け情報のサブセットであるため、ラベル付け情報に基づいてスロット情報を決定されてもよい。さらに、構成可能な語義ツリーをシーケンス化することにより、ツリー状の語義結果をフラットな構造に変換することができる。

ブロック３２０において、管理機器１２０は、第１の意図情報、第１の分野情報、および第１のスロット情報に基づいて、テキスト情報の第１の語義情報を生成することができる。

ブロック３３０において、管理機器１２０は、少なくとも第１の語義情報に基づいて、テキスト情報の語義を決定することができる。本開示の実施例によれば、様々な方式でテキスト情報の語義を決定することができる。例えば、図４は本開示のいくつかの実施例に係る語義を決定するためのプロセス４００のフローチャートを示す。理解を容易にするために、以下の説明で言及される具体的なデータは例示的なものであり、本開示の保護範囲を限定することを意図していない。

ブロック４１０において、管理機器１２０は、テキスト情報に関連付けられたテキスト特徴表現に基づいてテキスト情報の第２の分野情報および第２の意図情報を決定することができる。いくつかの実施例では、テキスト情報をテキスト特徴表現に変換し、トレーニングされた第１のニューラルネットワークモデルに入力して、テキスト情報の第２の分野情報および第２の意図情報を決定することができる。好ましくは、この第１のニューラルネットワークモデルは、ディープニューラルネットワークＤＮＮであってもよい。代替的または追加的に、この第１のニューラルネットワークモデルは、ニューラルネットワークＮＮ、畳み込みニューラルネットワークＣＮＮ、再帰的ニューラルネットワークＲＮＮまたは自己注意ニューラルネットワークＴｒａｎｓｆｏｒｍｅｒなどであってもよい。このようにすることで、分野と意図との関連特性を十分に学習することができる。

ブロック４２０において、管理機器１２０は、テキスト情報に関連付けられたテキスト特徴表現に基づいて、テキスト情報の第２のスロット情報を決定することができる。いくつかの実施例では、テキスト情報をテキスト特徴表現に変換し、トレーニングされた第２のニューラルネットワークモデルに入力して、テキスト情報の第２の分野情報および第２の意図情報を決定することができる。好ましくは、この第２のニューラルネットワークモデルは、ディープニューラルネットワークＤＮＮでであってもよい。代替的または追加的に、この第２のニューラルネットワークモデルは、ニューラルネットワークＮＮ、畳み込みニューラルネットワークＣＮＮ、再帰的ニューラルネットワークＲＮＮまたは自己注意ニューラルネットワークＴｒａｎｓｆｏｒｍｅｒなどであってもよい。

ブロック４３０において、管理機器１２０は、第２の分野情報、第２の意図情報、および第２のスロット情報に基づいて、テキスト情報の第２の語義情報を生成することができる。

ブロック４４０において、管理機器１２０は、第１の語義的情報および第２の語義的情報に基づいて、テキスト情報の語義を決定することができる。

このようにして、遠距離音声認識テキストの高ノイズ、高冗長性、高度口語化の問題を解決することができるとともに、非常に速い応答速度を兼ねることができる。これは、分野と意図との関連特性を充分に学習することができるとともに、モデルの数を少なくし、応答速度を加速化することもできる。

いくつかの実施例では、リアルタイム介入メカニズムを統合して、テキスト情報、キーワード、文法などの複数レベルのブラック/ホワイトリストを用いて、分野、意図、およびスロットという３つの粒度の語義結果をオンラインで自由に介入することもできる。その結果、製品のニーズに迅速、正確、かつ安定して答えることができ、オンラインユーザ体験を確保することができる。

いくつかの実施例では、ルールおよび深層学習モデルの音声語義一体化信頼度技術を融合することもでき、これにより、各音響信頼度の利点および語義分析結果をマージし、コンテキスト、クライアント側状態を考慮して、ヒューマン・マシンインタラクション/非ヒューマン・マシンインタラクションの最終的な結果判定を行う。この技術案では、既存の音響信頼度技術は、部分的単一音節音響信頼度、フルセンテンス単一音節音響信頼度、フルセンテンス音響特徴音響信頼度、および語義分析結果、前文の状態、言語モデルスコアなどを含めて、ニューラルネットワークモデルの１次元または多次元の入力特徴に正規化され、オンラインデータの大量のレベル付け結果に基づいて、トレーニングセットを構築し、上記のニューラルネットワークモデルをトレーニングする。このニューラルネットワークモデルは、音響および語義などの各入力特徴の利点を学習し、コンテキスト、クライアント側状態などの入力情報を融合して、ヒューマン・マシン/非ヒューマン・マシンの最終的な判定結果を出すことができる。このニューラルネットワークモデルは、ニューラルネットワークＮＮ、畳み込みニューラルネットワークＣＮＮ、再帰的ニューラルネットワークＲＮＮまたは自己注意ニューラルネットワークＴｒａｎｓｆｏｒｍｅｒなどであってもよい。

上記の方法により、音声インタラクション機器によってインタラクションされた音声であるか否かを判定した後、実行される動作を語義に基づいて決定することができ、音声インタラクション中の音声命令実行の精度を向上させることができる。さらに、１回のウェイクアップで複数のインタラクションを行うことを前提に、音声命令を誤って実行しないことが確保され、ユーザ体験が向上する。

図５は、本開示の実施例に係る音声インタラクションするための装置５００の概略ブロック図を示す。図５に示すように、装置５００は、受信された音声信号に対応するテキスト情報を決定するように構成されるテキスト情報決定モジュール５１０と、テキスト情報内の要素にラベル付けすることによってテキスト情報のラベル付け情報を取得するように構成されるラベル付けモジュール５２０と、ラベル付け情報に基づいてテキスト情報の第１の意図情報を決定するように構成される第１の意図決定モジュール５３０と、第１の意図情報およびラベル付け情報に基づいて、テキスト情報の語義を決定するように構成される語義決定モジュール５４０と、を含むことができる。

いくつかの実施例では、語義決定モジュール５４０は、第１の意図情報およびラベル付け情報に基づいて、テキスト情報の第１の分野情報および第１のスロット情報を決定するように構成される分野スロット決定モジュール（図示せず）と、第１の意図情報、第１の分野情報および第１のスロット情報に基づいて、テキスト情報の第１の語義情報を生成するように構成される第１の語義情報生成モジュール（図示せず）と、少なくとも第１の語義情報に基づいて、テキスト情報の語義を決定するように構成される語義生成モジュール（図示せず）と、を含むことができる。

いくつかの実施例では、語義生成モジュールは、テキスト情報に関連付けられたテキスト特徴表現に基づいてテキスト情報の第２の分野情報および第２の意図情報を決定するように構成される分野意図決定モジュール（図示せず）２つの意図情報と、テキスト情報に関連付けられたテキスト特徴表現に基づいてテキスト情報の第２のスロット情報を決定するように構成されるスロット決定モジュール（図示せず）と、第２の分野情報、第２の意図情報および第２のスロット情報に基づいて、テキスト情報の第２の語義情報を生成するように構成される第２の語義情報生成モジュール（図示せず）と、第１の語義情報および第２の語義情報に基づいて、テキスト情報の語義を決定するように構成される語義結果決定モジュール（図示せず）と、を含むことができる。

いくつかの実施例では、ラベル付けモジュールは、時間、数字、人物名、および地名のうちの少なくとも１つを含む、要素内のエンティティ要素にラベル付けするように構成されるエンティティラベル付けモジュール（図示せず）と、所定の知識ベースに基づいて要素の分野をラベル付けするように構成される分野ラベル付けモジュール（図示せず）と、コンテキスト自由文法に基づいて、要素内の置き換え可能な要素にラベル付けするように構成される置き換え可能な要素ラベル付けモジュール（図示せず）との少なくとも１つを含むことができる。

いくつかの実施例では、第１の意図決定モジュールは、ラベル付け情報と意図情報とのマッピング関係に基づいて、ラベル付け情報に対応する複数の候補意図情報を決定するように構成される候補意図決定モジュール（図示せず）と、複数の候補意図情報から第１の意図情報を選択するように構成される第１の意図選択モジュール（図示せず）と、を含むことができる。

いくつかの実施例では、第１の意図選択モジュールは、複数の候補意図情報内の一部の候補意図情報が所定の制約条件を満たさないことに応答して、一部の候補意図情報を複数の候補意図情報から削除するように構成される削除モジュール（図示せず）であって、所定の制約条件は、ラベル付け情報内の情報単位の順序が正しいか否か、およびラベル付け情報内の１つの情報単位が複数の値を有するか否かの少なくとも１つを含む削除モジュールを含むことができる。
本開示の実施例によれば、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声インタラクションするための方法が実行される。

図６は、本開示の実施例を実施可能なコンピューティング機器６００を示す。機器６００は、図１の管理機器１４０の実現に使用されてもよい。図に示すように、機器６００は、リードオンリーメモリ（ＲＯＭ）６０２に記憶されたコンピュータプログラム命令、または記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作および処理を実行可能な中央処理装置（ＣＰＵ）６０１を含む。ＲＡＭ６０３には、機器６００の動作に必要な各種のプログラムおよびデータが格納されてもよい。ＣＰＵ６０１と、ＲＯＭ６０２と、ＲＡＭ６０３とは、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

機器６００における複数のコンポーネントは、Ｉ／Ｏインターフェース６０５に接続されており、キーボードやマウスなどの入力ユニット６０６と、種々なディスプレイやスピーカなどの出力ユニット６０７と、磁気ディスクや光ディスクなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット６０９と、を含む。通信ユニット６０９は、機器６００がインターネットのようなコンピュータネットおよび／または種々なキャリアネットワークを介してその他の機器と情報／データを交換することを許可する。

中央処理装置６０１は、上記の各方法および処理、例えば、プロセス２００、３００および４００を実行する。例えば、いくつかの実施例では、プロセス２００、３００および４００は、記憶ユニット６０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全ては、ＲＯＭ６０２および／または通信ユニット６０９を介して、機器６００にロードおよび／またはインストールすることができる。コンピュータプログラムがＲＡＭ６０３にロードされてＣＰＵ６０１によって実行される場合、上記のプロセス２００、３００および４００の一つまたは複数のステップを実行することができる。代替可能に、他の実施例では、ＣＰＵ６０１は、他の任意の適切な方式（例えば、ファームウェアにより）によりプロセス２００、３００および４００を実行するように構成される。

本明細書で上述された機能は、少なくとも部分的に一つまたは複数のハードウェアロジックコンポーネントによって実現することができる。例えば、使用可能なハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などを含むが、これらに限定されない。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを用いて作成することができる。これらのプログラムコードは、汎用コンピュータ、専門コンピュータまたはその他のプログラミングデータ処理装置のプロセッサまたはコントローラに提供されることにより、プログラムコードがプロセッサまたはコントローラによって実行されるとき、フローチャートおよび／またはブロック図に規定された機能／動作を実行することができる。プログラムコードは、完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立したソフトパッケージとして部分的にマシンで実行されるとともに、部分的にリモートマシンで実行されてもよく、または完全にリモートマシンまたはサーバで実行されてもよい。

本開示の説明において、機械読み取り可能な媒体は、有形な媒体であってもよく、命令実行システム、装置または機器によって、または命令実行システム、装置または機器と合わせて使用されるプログラムを含み、または記憶する。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁、赤外線、または半導体システム、装置、またはデバイス、または上述された内容の任意の適切な組み合わせを含んでもよいが、これらに限定されない。機械読み取り可能な記憶媒体のさらなる具体例として、ポータブルコンピュータディスクカートリッジ、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上述された内容の任意の組み合わせを含む。

また、特定の順番で各動作を説明したが、このような動作を、示される特定の順番または順次実行することが求められ、または図示した動作の全てを実行して所望の結果を取得することが求められることを理解されたい。一定の環境において、複数のタスクおよび並列処理が有利である可能性がある。同様に、以上の説明には、いくつかの具体的な実現の詳細が含まれたが、それが本開示の範囲を限定するものと理解されてはならない。個別の実施例に説明された一部の特徴は、組み合わせて一つの実現で実現されてもよい。逆に、一つの実施例に説明された種々な特徴は、個別または任意の適切なサブ組み合わせの方式で複数の実現で実現されてもよい。

構成の特徴および／または方法の論理動作に特有の言語で本テーマを説明したが、特許請求の範囲で限定される本題は、上記の特定の特徴または動作に限定されない。逆に、上記の特定の特徴および動作は、特許請求の範囲を実現する例示的な形態に過ぎない。

Claims

音声インタラクションするための方法であって、
受信された音声信号に対応するテキスト情報を決定するステップと、
前記テキスト情報内の要素にラベル付けすることにより、前記テキスト情報のラベル付け情報を取得するステップと、
前記ラベル付け情報に基づいて前記テキスト情報の第１の意図情報を決定するステップと、
前記第１の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の語義を決定するステップと、を含み、
前記テキスト情報の語義を決定するステップは、
前記第１の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の第１の分野情報および第１のスロット情報を決定するステップと、
前記第１の意図情報、前記第１の分野情報および前記第１のスロット情報に基づいて、前記テキスト情報の第１の語義情報を生成するステップと、
少なくとも前記第１の語義情報に基づいて、前記テキスト情報の語義を決定するステップと、を含む、
ことを特徴とする音声インタラクションするための方法。
前記テキスト情報内の要素にラベル付けするステップは、
時間、数字、人物名、および地名のうちの少なくとも１つを含む、前記要素内のエンティティ要素にラベル付けするステップと、
所定の知識ベースに基づいて前記要素の分野をラベル付けするステップと、
コンテキスト自由文法に基づいて、前記要素内の置き換え可能な要素にラベル付けするステップと、の少なくとも１つを含む、
ことを特徴とする請求項１に記載の方法。
前記テキスト情報の第１の意図情報を決定するステップは、
前記ラベル付け情報と意図情報とのマッピング関係に基づいて、前記ラベル付け情報に対応する複数の候補意図情報を決定するステップと、
前記複数の候補意図情報から前記第１の意図情報を選択するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
音声インタラクションするための装置であって、
受信された音声信号に対応するテキスト情報を決定するように構成されるテキスト情報決定モジュールと、
前記テキスト情報内の要素にラベル付けすることにより、前記テキスト情報のラベル付け情報を取得するように構成されるラベル付けモジュールと、
前記ラベル付け情報に基づいて前記テキスト情報の第１の意図情報を決定するように構成される第１の意図決定モジュールと、
前記第１の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の語義を決定するように構成される語義決定モジュールと、を含み、
前記語義決定モジュールは、
前記第１の意図情報および前記ラベル付け情報に基づいて、前記テキスト情報の第１の分野情報および第１のスロット情報を決定するように構成される分野スロット決定モジュールと、
前記第１の意図情報、前記第１の分野情報および前記第１のスロット情報に基づいて、前記テキスト情報の第１の語義情報を生成するように構成される第１の語義情報生成モジュールと、
少なくとも前記第１の語義情報に基づいて、前記テキスト情報の語義を決定するように構成される語義生成モジュールと、を含む、
ことを特徴とする音声インタラクションするための装置。
前記ラベル付けモジュールは、
時間、数字、人物名、および地名のうちの少なくとも１つを含む、前記要素内のエンティティ要素にラベル付けするように構成されるエンティティラベル付けモジュールと、
所定の知識ベースに基づいて前記要素の分野をラベル付けするように構成される分野ラベル付けモジュールと、
コンテキスト自由文法に基づいて、前記要素内の置き換え可能な要素にラベル付けするように構成される置き換え可能な要素レベル付けモジュールと、の少なくとも１つを含む、
ことを特徴とする請求項４に記載の装置。
前記第１の意図決定モジュールは、
前記ラベル付け情報と意図情報とのマッピング関係に基づいて、前記ラベル付け情報に対応する複数の候補意図情報を決定するように構成される候補意図決定モジュールと、
前記複数の候補意図情報から前記第１の意図情報を選択するように構成される第１の意図選択モジュールと、を含む、
ことを特徴とする請求項４に記載の装置。
一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサが、請求項１～３のいずれかに記載の方法を実現する、
ことを特徴とする電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項１～３のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項１～３のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラム。