JP6458149B2

JP6458149B2 - 車載音声命令の認識方法、装置及び記憶媒体

Info

Publication number: JP6458149B2
Application number: JP2017530131A
Authority: JP
Inventors: シュン，リーフイ; オウヤン，ネンジュン; ムー，シャンユー
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2015-07-02
Filing date: 2015-11-23
Publication date: 2019-01-23
Anticipated expiration: 2035-11-23
Also published as: CN105070288A; EP3319081A4; US20180190283A1; US10446150B2; WO2017000489A1; EP3319081A1; KR101955958B1; KR20170078788A; CN105070288B; JP2018503857A

Description

［優先権主張］
本願は、２０１４年０６月３０日に出願された、出願番号が２０１５１０３８２２１５．９、出願人が百度在線網絡技術（北京）有限公司、発明名称が「車載音声命令の認識方法及び装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本願に組み込む。

本発明の実施例はコンピュータデータ処理の技術分野に関し、特に車載音声命令の認識方法、装置及び記憶媒体に関する。

自動車工業の発展及び電子市場の成熟に従って、車載インテリジェント端末は自動車の重要な付属機器になっている。近年では、経済的な繁栄は中国国内の自動車の数が急激に増加するよう促し、それに応じて、人々が外出する時に利用する交通機関も変化しており、車の使用時間が長くなっている。従って、車載インテリジェント端末の機能は簡単なナビゲーションから多機能化に変わってくる。

新しく発展されてきた多くの機能のうち、音声命令の認識と実行は注目を集めている。ところが、従来の車載インテリジェント端末は自体に配置された命令セットが限られるため、ユーザの音声命令を正確に認識できない場合がよくある。例えば、従来の車載インテリジェント端末は、標準語の音声命令に対する認識率が高いが、各種の方言に対する認識率が低い。ユーザの異なる音声に対する適応性が低く、認識率が低いため、ユーザの使用障害を引き起こす。このように、ユーザが車載インテリジェント端末の音声命令認識機能を使用する比率は非常に低い。

上記技術的問題に鑑みて、音声命令の正確な認識率を向上させるために、本発明の実施例は車載音声命令の認識方法、装置及び記憶媒体を提供する。

第１態様によれば、本発明の実施例は車載音声命令の認識方法を提供し、この方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップと、
前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む。

第２態様によれば、本発明の実施例は車載音声命令の認識装置を提供し、この装置は、
ユーザが入力した音声命令を取得するための命令取得モジュールと、
予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するための基本情報決定モジュールと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するための意図認識モジュールと、
前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するための信頼度決定モジュールと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するための意図決定モジュールと、
前記ユーザの真意に基づいて対応する動作を実行するための動作実行モジュールと、を備える。

第３態様によれば、本発明の実施例は１つ又は複数のコンピュータ実行可能命令を含む記憶媒体を提供し、前記コンピュータ実行可能命令がコンピュータプロセッサによって実行されると車載音声命令の認識方法を実行し、前記方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップと、
前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む。

本発明の実施例に係る車載音声命令の認識方法、装置及び記憶媒体は、ディープニューラルネットワークＤＮＮモデルによってユーザの基本情報を取得し、ユーザが音声命令を入力する時のシーンページのコンテキストに基づいてユーザの可能な意図を判断し、前記ディープニューラルネットワークＤＮＮモデルによって前記可能な意図の信頼度を計算し、最終的に当該信頼度に基づいてユーザの真意を確認し、対応する操作を実行することによって、ユーザの音声命令の正確な認識率を効果的に向上させる。

本発明の実施例における技術案をより明確的に説明するために、以下、実施例の記述に使用される添付図面について簡単に紹介し、無論、下記の説明される添付図面は、ただ本発明のいくつかの実施例であり、当業者にとって、創造的労働なしに、これらの添付図面を修正したり、置き換えたりしてもよい。

本発明の第１実施例に係る車載音声命令の認識方法のフローチャートである。本発明の第２実施例に係る車載音声命令の認識方法における基本情報決定のフローチャートである。本発明の第３実施例に係る車載音声命令の認識方法のフローチャートである。本発明の第４実施例に係る車載音声命令の認識方法のフローチャートである。本発明の第５実施例に係る車載音声命令の認識方法における信頼度決定のフローチャートである。本発明の第６実施例に係る車載音声命令の認識方法における意図決定のフローチャートである。本発明の第７実施例に係る車載音声命令の認識方法における動作実行のフローチャートである。本発明の第８実施例に係る車載音声命令の認識方法のフローダイヤグラムである。本発明の第９実施例に係る車載音声命令の認識装置の構造図である。

以下、図面と実施例を参照しながら、本発明における技術案を明らかで完全に説明する。明らかに、説明される実施例は、ただ本発明の一部の実施例であり、全部の実施例ではなく、ただ本発明の原理を解釈するためのものであり、本発明をこれらの一部の実施例に限定するためのものではない。本発明で開示されている実施例に基づいて、当業者にとっては、創造的労働なしに得られる全ての他の実施例が、本発明で保護される範囲に属する。

第１実施例
本実施例は車載音声命令の認識方法の技術案を提供する。本技術案は車載音声命令の認識装置で実行されてもよい。前記車載音声命令の認識装置はネットワーク側のサーバ内に集成されてもよい。前記サーバはインターネットによってユーザが車搭載機器で入力した音声命令を受信し、受信した音声命令を処理して、処理結果に基づいて、インターネットを介して次に実行する動作を車搭載機器に指示する。前記車載音声命令の認識装置は端末側の計算装置内に集成されてもい。この場合、前記計算装置はインターネットを介せず前記音声命令を取得することができる。

具体的には、図１に示されるように、前記車載音声命令の認識方法はＳ１１〜Ｓ１６を含む。

Ｓ１１：ユーザが入力した音声命令を取得する。

自動車のインターネット概念（Internet of Vehicles）の出現に伴って、自動車内に一般的にネットワーク接続機能を有する車搭載機器を有するようになり、ユーザは自動車の内部に配置される車搭載機器で音声命令を入力することができる。前記音声命令はユーザが車搭載機器に実行してほしい次の操作を指定することができる。例えば、前記音声命令が「周杰倫の歌を再生する」である場合、車搭載機器は次にすべての周杰倫の歌を再生する動作を実行すべきである。

Ｓ１２：予めトレーニングされたディープニューラルネットワーク（Ｄｅｅｐｎｅｕｔｒａｌｎｅｔｗｏｒｋ、ＤＮＮ）モデルに基づいてユーザの基本情報を決定する。

本実施例では、ユーザの入力音声に基づいてユーザのいくつかの基本情報を決定する必要がある。前記基本情報は、音声命令の入力時間、音声命令の入力場所、音声入力動作を実行するユーザの年齢、性別、出身地、延いては職業を含む。

上記基本情報に対する記憶と解析を統一するために、ユーザの「画像」を定義する。前記「画像」は上記基本情報を記憶するためのプロファイル型のデータ構造である。ユーザの各種の基本情報の属性は、前記「画像」の１つのフィールドとして記憶される。

ユーザの入力音声に基づいてユーザの基本情報を決定するために、１つのＤＮＮモデルを予めトレーニングする必要がある。トレーニング過程において、トレーニング音声におけるゼロ交差率（zero-crossing rate、ZCR）、短時間エネルギー（short-time energy）、ケプストラム係数（cepstral coefficients）及び基本周波数（fundamental frequency）等の特徴をトレーニング音声の特徴パラメータとして抽出し、入力パラメータとして前記ＤＮＮモデルに入力し、前記ＤＮＮモデルの出力パラメータと前記トレーニング音声のアノテーションパラメータとの差異に基づいて前記ＤＮＮモデルのモデルパラメータを決定することができる。トレーニングが完了した後に、ユーザが入力した入力音声を受信した後に、前記ＤＮＮモデルは前記入力音声の特徴に基づいてユーザの年齢、性別、出身地、職業等の基本情報を正確に判断することができる。

Ｓ１３：前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定する。

前記音声命令に対して実行するコンテンツ認識は前記音声命令に対する音声認識である。前記音声命令に対する音声認識はユーザの基本情報を参照して行う音声認識である。例えば、ユーザの出身地属性、及びユーザの出身地に対応する地域のアクセント特徴を参照し、ユーザの音声命令に対して音声認識を行うことができる。

前記音声命令に対するコンテンツ認識を完了した後に、更に前記音声命令に対してユーザの可能な意図を決定する。前記ユーザの可能な意図はユーザが前記音声命令を入力する時の可能性のある目的である。前記ユーザの可能な意図は車搭載機器が次に実行すべきな少なくとも１つの操作に対応する。例えば、前記音声命令「周杰倫の歌を再生する」に対して意図認識を行って得たユーザの可能な意図は、車搭載機器の周杰倫の歌を選択する操作、及び選択された歌を再生する操作に対応する。

Ｓ１４：前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定する。

ユーザの入力音声に対して少なくとも１つのユーザの可能な意図を決定した後に、前記ＤＮＮモデルに基づいて各ユーザの可能な意図の信頼度を決定する。更に、前記音声命令に対してコンテンツ認識を行った結果を分析して、当該結果を前記ＤＮＮモデルに入力することによって、ユーザの異なる可能な意図の信頼度を取得することができる。

Ｓ１５：前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定する。

信頼度決定操作の後に、ユーザの異なる可能な意図は異なる信頼度に対応することを理解すべきである。この時、前記ユーザの可能な意図から、信頼度と予め決定した信頼度区間とのマッチング度が最も高い１つのユーザの可能な意図を、前記音声命令に対応するユーザの真意として選択する。

Ｓ１６：前記ユーザの真意に基づいて対応する動作を実行する。

ユーザの真意を決定した後に、前記真意に対応する動作を実行する。前記動作は音声再生、ビデオ再生、図面表示、ウェブページオープン等であってもよい。

本実施例はユーザが入力した音声命令を取得し、予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定し、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定し、前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定し、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定し、前記真意に基づいて対応する動作を実行することによって、音声命令の正確な認識率を効果的に向上させる。

第２実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法における基本情報決定用の技術案を提供する。当該技術案では、予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するステップにおいては、前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも１項を含む音声特徴パラメータを抽出するステップと、前記音声特徴パラメータ、前記位置及び前記時間を前記ＤＮＮの入力パラメータとして、前記ＤＮＮの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも１項を含むユーザの基本情報を決定するページオープンと、を含む。

図２に示されるように、予めトレーニングされたＤＮＮモデルに基づいてユーザの基本情報を決定するステップはＳ２１、Ｓ２２を含む。

Ｓ２１：前記音声命令から音声特徴パラメータを抽出する。

ユーザが入力した音声命令から若干の音声特徴パラメータを抽出することができる。前記音声特徴パラメータは、ゼロ交差率、短時間エネルギー、ケプストラム係数、基本周波数のうちの少なくとも１つを含む。前記音声命令から抽出した音声特徴パラメータは前記音声命令の特徴として前記ＤＮＮモデルに入力されることができる。

Ｓ２２：前記音声特徴パラメータ、位置及び時間を前記ＤＮＮの入力パラメータとして、前記ＤＮＮの出力パラメータに基づいてユーザの基本情報を決定する。

前記ＤＮＮはＤＮＮ理論に基づいて予めトレーニングして得られ、ユーザの基本情報を判断するためのモデルである。前記基本情報は、ユーザの性別、年齢、出身地及び職業を含む。

前記ＤＮＮは入力層、隠れ層及び出力層からなる。前記入力層は入力パラメータを受信することに用いられ、前記出力層は計算結果を出力することに用いられ、前記隠れ層は前記入力パラメータの値に基づいて、前記計算結果を求めることに用いられる。

前記入力パラメータは、音声特徴パラメータ、音声命令を入力する時にユーザが位置する位置及び前記音声命令の入力時間を含む。前記入力パラメータを前記ＤＮＮに入力した後に、前記入力層、隠れ層及び出力層の計算に基づいて、ユーザの基本情報に対する判断結果を得ることができる。

更に好ましくは、前記入力パラメータは、呼び出されたユーザＩＤ番号（Ｃａｌｌｅｄｕｓｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｎｕｍｂｅｒ、ＣＵＩＤ）を含んでもよい。前記ＣＵＩＤはユーザの性別、年齢等の基本情報を決定するのに非常に有用である。

本実施例は前記音声命令から音声特徴パラメータを抽出するとともに、前記音声特徴パラメータ、前記位置及び前記時間を前記ＤＮＮの入力パラメータとして、前記ＤＮＮの入力パラメータに基づいてユーザの基本情報を決定することによって、ＤＮＮによってユーザの基本情報を判断することを実現する。

第３実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップは、ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。

図３に示されるように、前記車載音声命令の認識方法はＳ３１〜Ｓ３６を含む。

Ｓ３１：ユーザが入力した音声命令を取得する。

Ｓ３２：予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定する。

Ｓ３３：ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断する。

セーション（Ｓｅｓｓｉｏｎ）対象を設定し、前記ユーザが前記音声命令を入力する前に所定の長さの期間内に表示したページ、及びユーザが前記表示したページに留まる時間をＳｅｓｓｉｏｎ対象に記憶することができる。ユーザの可能な意図を判断する必要がある時に、前記Ｓｅｓｓｉｏｎ対象からユーザが前記音声命令を入力する前に所定の長さの期間内に表示したページ、ユーザが各ページに留まる時間を取得し、前記音声命令に対する認識コーパスと組み合わせて、ユーザの可能な意図を総合的に判断する。

例えば、経験に基づいて、３分間である所定の長さの期間内に表示したページが地図ナビゲーションページであり、ユーザが地図ナビゲーションページにおいて留まる時間が３分間であり、且つ前記認識コーパスにキーワード「ナビゲーション」が含まれる場合、ユーザの実際の意図はナビゲーションルートを改めて設定することの可能性が高く、上記状況が発生する場合、ナビゲーションルートの再設定をユーザの可能な意図として判定することができる。

Ｓ３４：前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定する。

Ｓ３５：前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定する。

Ｓ３６：前記ユーザの真意に基づいて対応する動作を実行する。

本実施例はユーザの基本情報を決定した後に、ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断することによって、ユーザの可能性のある意図に対する正確な判断を実現する。

第４実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップにおいては、ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。

図４に示されるように、前記車載音声命令の認識方法はＳ４１〜Ｓ４６を含む。

Ｓ４１：ユーザが入力した音声命令を取得する。

Ｓ４２：予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定する。

Ｓ４３：ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断する。

本発明の第３実施例と同じように、Ｓｅｓｓｉｏｎ対象を設定し、前記音声命令を入力する前に所定数の表示したページ、及びユーザが前記表示したページにおいて留まる時間を前記Ｓｅｓｓｉｏｎ対象に記憶することができる。ユーザの可能な意図を判断する必要がある時に、前記Ｓｅｓｓｉｏｎ対象から前に記憶したページ及び留まる時間パラメータを取得し、前記音声命令の認識コーパスと組み合わせて、ユーザの可能な意図を総合的に判断する。

例として、音声命令を入力する前に表示した２つのページはそれぞれ音楽再生ページ及び地図ナビゲーションページである。ユーザが音楽再生ページ及び地図ナビゲーションページにおいて留まる時間はそれぞれ３分間及び２〜１０分間であり、且つ前記認識コーパスにキーワード「ナビゲーション」が含まれる。経験に基づいて、この場合は、ユーザの実際の意図はナビゲーションルートを改めて設定することの可能性が高い。上記状況が発生する時に、ユーザの可能な意図を、ナビゲーションルートを改めて設定することとして判断することができる。

Ｓ４４：前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定する。

Ｓ４５：前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定する。

Ｓ４６：前記ユーザの真意に基づいて対応する動作を実行する。

本実施例はユーザの基本情報を決定した後に、ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断することによって、ユーザの可能性のある意図に対する正確な判断を実現する。

第５実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において信頼度を決定する技術案を提供する。当該技術案では、前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップにおいては、前記音声命令の音声特徴パラメータを入力パラメータとして、前記ＤＮＮモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む。

図５に示されるように、前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップはＳ５１、Ｓ５２を含む。

Ｓ５１：前記音声命令の音声特徴パラメータを入力パラメータとして、前記ＤＮＮモデルによってユーザが前記音声命令を入力した時の気分状態を評価する。

前記ＤＮＮモデルはユーザの基本情報を決定することに用いられるだけでなく、可能性のある意図の信頼度を決定する時に、さらにユーザが前記音声命令を入力した時の気分状態を評価することに用いられる。

具体的には、ユーザの可能性のある複数の気分状態を予め定義することができる。例えば、ユーザの気分状態は嬉しさ、悲しみ、怒り等を含んでもよい。ユーザの気分状態を決定した後に、前記ＤＮＮモデルの出力層に異なる気分状態に対応する出力ユニットを設定する。このように、前記ＤＮＮのトレーニングが完了した後に、前記ＤＮＮは気分状態の評価に用いられ得る。

Ｓ５２：前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得する。

具体的には、経験に基づいてユーザの異なる気分状態に対応する信頼度の値を指定することができる。例えば、経験に基づいて、嬉しい気分状態である場合に前記信頼度の値を最高とし、悲しい気分状態である場合に前記信頼度の値を最低として指定する。

本実施例は前記音声命令の音声特徴パラメータを入力パラメータとして、前記ＤＮＮモデルによってユーザが前記音声命令を入力した時の気分状態を評価し、前記気分状態に基づいて前記可能性のある意図の信頼度を取得することによって、ＤＮＮモデルによってユーザが音声命令を入力した時の気分状態を評価し、更に前記気分状態に基づいてユーザの可能な意図の信頼度を決定する。

第６実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において信頼度を決定する技術案を提供する。当該技術案では、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップにおいては、前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む。

図６に示されるように、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップはＳ６１、Ｓ６２を含む。

Ｓ６１：前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングする。

異なる可能性のある意図は相応な信頼度区間に対応する。例えば、意図「ナビゲーションルートを改めて設定する」ことの可能性のある信頼度区間は０．４５〜０．６である。各可能性のある意図に対応する信頼度区間を予め収集し、前記音声命令に対応する可能性のある意図及び前記可能性のある意図の信頼度を得た後に、前記信頼度と収集した各信頼度区間とをマッチングする。

更に好ましくは、可能性のある意図、すなわちユーザの可能な意図については、さらにそれに対応するパラメータが付いている場合もある。例えば、「再生モードを変える」である意図の付いている可能性があるパラメータは、循環再生、連続再生、ランダム再生等のターゲット再生モードを含む。この時、各付いているパラメータを１つの独立した案として、それに対応する信頼度区間を単独に収集し、前記信頼度を取得した後に、前記信頼度と単独に収集した信頼度区間とをマッチングすべきである。

Ｓ６２：前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とする。

信頼度区間のマッチングが終了した後に、マッチング度が最も高い信頼度区間に対応する可能性のある意図をユーザの真意とする。

本実施例は前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングし、前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とすることによって、信頼度パラメータに基づいてユーザの真意を認識することを実現する。

第７実施例
本実施例は本発明の上記実施例を基礎として、更に前記車載音声命令の認識方法において意図を決定する技術案を提供する。当該技術案では、前記ユーザの真意に基づいて対応する動作を実行するステップにおいては、前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む。

図７に示されるように、前記ユーザの真意に基づいて対応する動作を実行するステップは、Ｓ７１、Ｓ７２、及びＳ７３を含む。

Ｓ７１：前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行する。

ユーザの真意を決定した後に、前記真意に対応する動作を実行するかどうかは、前記真意の実行条件が成立するかどうかにより決められる。例えば、真意が「ウィーチャットを見る」ことである場合、それに対応する実行条件は停車状態である。音声命令を受信し、真意「ウィーチャットを見る」ことを行う時に停車状態にあると認識する場合、前記真意に対応する動作を実行し、つまりウィーチャットを見る。

Ｓ７２：前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせる。

真意が「ウィーチャットを見る」ことを例として、音声命令を受信し、真意「ウィーチャットを見る」ことを行う時に走行状態にあると認識する場合、ウィーチャットを見る動作を実行せず、現在状態で当該動作を実行する危険性をユーザにメッセージで示す。

Ｓ７３：前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行する。

ユーザの気分状態が悪く、又はユーザの真意をはっきりと判断できない場合、ユーザの真意の実行条件を明確に認識できない可能性がある。この場合、前記ユーザの真意と類似した動作を実行すべきであるが、前記類似した動作が安全な動作であることを確保しなければならない。

本実施例は前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行し、前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行することによって、実行条件の再確認により、実行する動作の安全性を確保する。

第８実施例
本実施例は前記車載音声命令の認識方法の技術案を提供する。当該技術案では、前記車載音声命令の認識方法は、ユーザの基本情報を判断するステップと、Ｓｅｓｓｉｏｎ処理に基づいて、ユーザの可能な意図を取得するステップと、意図信頼度処理に基づいて、ユーザの異なる可能な意図の信頼度を取得するステップと、安全処理に基づいて、実行すべき動作を決定するステップと、統合判断結果に基づいて、対応した動作を実行するかどうかを決定するステップと、を含む。

図８に示されるように、前記車載音声命令の認識方法はＳ８１〜Ｓ８５を含む。

Ｓ８１：ユーザの基本情報を判断する。

本実施例では、予めトレーニングされたＤＮＮによってユーザの基本情報を認識する。前記基本情報はユーザの年齢、性別、出身地、職業等を含む。

Ｓ８２：Ｓｅｓｓｉｏｎ処理に基づいて、ユーザの可能な意図を取得する。

Ｓｅｓｓｉｏｎ対象によって記憶した、ユーザが音声命令を送信する前に使用したページに基づいて、ユーザの可能な意図を取得する。

Ｓ８３：意図信頼度処理に基づいて、ユーザの異なる可能な意図の信頼度を取得する。

本実施例では、同じように、予めトレーニングされたＤＮＮに基づいて異なる可能性のある意図の信頼度を認識する。

Ｓ８４：安全処理に基づいて、実行すべき動作を決定する。

自動車の現在状態を認識することにより実行しようとする動作が安全な動作であるかどうかを決定することによって、実行すべき動作を更に決定する。

Ｓ８５：総合的な判断結果に基づいて、対応した動作を実行するかどうかを決定する。

前の複数のステップの結果を総合的に判断することによって、対応した動作を実行するかどうかを決定する。

本実施例はユーザの基本情報を判断し、Ｓｅｓｓｉｏｎ処理に基づいて、ユーザの可能な意図を取得し、意図信頼度処理に基づいて、ユーザの異なる可能な意図の信頼度を取得し、安全処理に基づいて、実行すべき動作を決定し、統合判断結果に基づいて、対応した動作を実行するかどうかを決定することによって、音声命令の取得から、対応した動作の実行までの全過程を完了する。

第９実施例
本実施例は車載音声命令の認識装置の技術案を提供する。当該技術案では、前記車載音声実行認識装置は、命令取得モジュール９１、基本情報決定モジュール９２、意図認識モジュール９３、信頼度決定モジュール９４、意図決定モジュール９５及び動作実行モジュール９６を備える。

前記命令取得モジュール９１はユーザが入力した音声命令を取得することに用いられる。

前記基本情報決定モジュール９２は予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定することに用いられる。

前記意図認識モジュール９３は前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定することに用いられる。

前記信頼度決定モジュール９４は前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定することに用いられる。

前記意図決定モジュール９５は前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定することに用いられる。

前記動作実行モジュール９６は前記ユーザの真意に基づいて対応する動作を実行することに用いられる。

更に、前記基本情報決定モジュール９２は、特徴抽出ユニット及びＤＮＮ認識ユニットを備える。

前記特徴抽出ユニットは前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも１項を含む音声特徴パラメータを抽出することに用いられる。

前記ＤＮＮ認識ユニットは前記音声特徴パラメータ、前記位置及び前記時間を前記ＤＮＮの入力パラメータとして、前記ＤＮＮの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも１項を含むユーザの基本情報を決定することに用いられる。

更に、前記意図認識モジュール９３は、第１意図認識ユニット又は第２意図認識ユニットを備える。

前記第１意図認識ユニットはユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断することに用いられる。

前記第２意図認識ユニットはユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断することに用いられる。

更に、前記信頼度決定モジュール９４は、気分評価ユニット及び信頼度取得ユニットを備える。

前記気分評価ユニットは前記音声命令の音声特徴パラメータを入力パラメータとして、前記ＤＮＮモデルによってユーザが前記音声命令を入力した時の気分状態を評価することに用いられる。

前記信頼度取得ユニットは前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得することに用いられる。

更に、前記意図決定モジュール９５は、マッチングユニット及び真意取得ユニットを備える。

前記マッチングユニットは前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングすることに用いられる。

前記真意取得ユニットは前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とすることに用いられる。

更に、前記動作実行モジュール９６は、第１動作実行ユニット、第２動作実行ユニット及び第３動作実行ユニットを備える。

前記第１動作実行ユニットは前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行することに用いられる。

前記第２動作実行ユニットは前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザにプ知らせることに用いられる。

前記第３動作実行ユニットは前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行することに用いられる。

上記車載音声命令の認識装置は本発明の任意の実施例に係る車載音声命令の認識方法を実行でき、方法の実行に対応した機能モジュールと有益な効果を有する。

当業者であれば、上記本発明の各モジュール又は各ステップは汎用の計算機器で実現されてもよく、それらは単一の計算機器に集積されてもよく、又は複数の計算機器で構成されるネットワークに分布されてもよい。任意選択で、それらはコンピュータ装置実行可能なプログラムコードで実現されてもよいため、それらを記憶装置に記憶して計算機器で実行してもよく、又はそれらをそれぞれ各集積回路モジュールとして製造してもよく、又はそのうちの複数のモジュール又はステップを単一の集積回路モジュールとして製造して実現してもよいことを理解すべきである。このように、本発明は特定のハードウェアとソフトウェアの組み合わせに制限されない。

第１０実施例
コンピュータプロセッサで実行されると車載音声命令の認識方法を実行するためのコンピュータ実行可能命令を含む１つ又は複数の記憶媒体であって、前記方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップと、
前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップとを、含むことを特徴とする１つ又は複数のコンピュータ実行可能命令を含む記憶媒体。

上記記憶媒体が前記方法を実行する時に、予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するステップにおいては、
前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも１項を含む音声特徴パラメータを抽出するステップと、
前記音声特徴パラメータ、位置及び時間を前記ＤＮＮの入力パラメータとして、前記ＤＮＮの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも１項を含むユーザの基本情報を決定するステップとを含む。

上記記憶媒体が前記方法を実行する時に、前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力したシーンページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップにおいては、
ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップ、又は
ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む。

上記記憶媒体が前記方法を実行する時に、前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップにおいては、
前記音声命令の音声特徴パラメータを入力パラメータとして、前記ＤＮＮモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、
前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む。

上記記憶媒体が前記方法を実行する時に、前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップにおいては、
前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、
前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む。

上記記憶媒体が前記方法を実行する時に、前記ユーザの真意に基づいて対応する動作を実行するステップにおいては、
前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、
前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、
前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む。

上記実施形態の説明によれば、当業者は、本発明がソフトウェア、および必要な汎用ハードウェアにより実現されてもよく、勿論ハードウェアにより実現されてもよいが、多くの場合、前者が好ましい実施形態であると理解すべきである。このような理解に基づいて、本発明の技術案は、実質的な部分、または従来技術を改良する部分をソフトウェア製品の形態で実現してもよい。当該コンピュータソフトウェア製品は、コンピュータ可読記憶媒体、例えばコンピュータのフロッピーディスク、光ディスク、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）などに記憶されてもよく、且つコンピュータ機器（パソコン、サーバ、またはネットワーク機器などであってもよく）に本発明の各実施例に係る方法を実行させる複数の命令を含む。

注意すべきのは、上記車載音声命令の認識装置の実施例中に含まれる各モジュールとサブモジュールが、機能ロジックのみに応じて区画されるが、上記区画に限定されない。対応する機能を実現することができればよい。また、各機能ユニットの具体的な名称は、単に区別を容易にするためのものであり、本発明の保護範囲を限定するものではない。

以上で説明したのは、本発明の具体的な実施形態だけであり、本発明の保護範囲は、これらに限定されるものではない。いかなる当業者が本発明に開示された技術範囲内に容易に想到できる変更または置換の全ては、本発明の保護範囲内に入るべきである。従って、本発明の保護範囲は、添付される特許請求の範囲を基準としているものである。

本発明における各実施例のいずれも漸進的な方式によって説明されており、各実施例において主に記述された内容が他の実施例との差異であり、各実施例の間の同じまたは類似する部分が互いに参照すればよい。

Claims

ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップと、
前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む
ことを特徴とする車載音声命令の認識方法。
予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するステップにおいては、
前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも１項を含む音声特徴パラメータを抽出するステップと、
前記音声特徴パラメータ、位置及び時間を前記ＤＮＮモデルの入力パラメータとして、前記ＤＮＮモデルの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも１項を含むユーザの基本情報を決定するステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップにおいては、
ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップ、又は
ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するステップを含む
ことを特徴とする請求項１に記載の方法
前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップにおいては、
前記音声命令の音声特徴パラメータを入力パラメータとして、前記ＤＮＮモデルによってユーザが前記音声命令を入力した時の気分状態を評価するステップと、
前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップにおいては、
前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするステップと、
前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記ユーザの真意に基づいて対応する動作を実行するステップにおいては、
前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するステップと、
前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるステップと、
前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するステップと、を含む
ことを特徴とする請求項１に記載の方法。
ユーザが入力した音声命令を取得するための命令取得モジュールと、
予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するための基本情報決定モジュールと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するための意図認識モジュールと、
前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するための信頼度決定モジュールと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するための意図決定モジュールと、
前記ユーザの真意に基づいて対応する動作を実行するための動作実行モジュールと、を備える
ことを特徴とする車載音声命令の認識装置。
前記基本情報決定モジュールは、
前記音声命令からゼロ交差率、短時間エネルギー、ケプストラム係数及び基本周波数のうちの少なくとも１項を含む音声特徴パラメータを抽出するための特徴抽出ユニットと、
前記音声特徴パラメータ、位置及び時間を前記ＤＮＮモデルの入力パラメータとして、前記ＤＮＮモデルの出力パラメータに基づいてユーザの性別、年齢、出身地及び職業のうちの少なくとも１項を含むユーザの基本情報を決定するためのＤＮＮ認識ユニットと、を備える
ことを特徴とする請求項７に記載の装置。
前記意図認識モジュールは、
ユーザが前記音声命令を入力する前に所定の長さの期間に表示したページを取得し、前記所定の長さの期間に表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断するための第１意図認識ユニット、又は
ユーザが前記音声命令を入力する前に所定数の表示したページを取得し、前記所定数の表示したページ、各ページに留まる時間及び前記音声命令における重要な認識コーパスに基づいてユーザの可能な意図を判断する第２意図認識ユニットを備える
ことを特徴とする請求項７に記載の装置。
前記信頼度決定モジュールは、
前記音声命令の音声特徴パラメータを入力パラメータとして、前記ＤＮＮモデルによってユーザが前記音声命令を入力した時の気分状態を評価するための気分評価ユニットと、
前記気分状態に基づいて前記ユーザの可能な意図の信頼度を取得するための信頼度取得ユニットとを備えることを特徴とする請求項７に記載の装置。
前記意図決定モジュールは、
前記信頼度と前記ユーザの可能な意図に対応する信頼度区間とをマッチングするためのマッチングユニットと、
前記信頼度とのマッチング度が最も高い信頼度区間に対応するユーザの可能な意図をユーザの真意とするための真意取得ユニットと、を備える
ことを特徴とする請求項７に記載の装置。
前記動作実行モジュールは、
前記ユーザの真意の実行条件が成立する場合、前記ユーザの真意に対応する動作を実行するための第１動作実行ユニットと、
前記ユーザの真意の実行条件が成立しない場合、前記ユーザの真意に対応する動作の実行を終了させ、ユーザに知らせるための第２動作実行ユニット、
前記ユーザの真意の実行条件が不確定である場合、前記ユーザの真意と類似した動作を実行するための第３動作実行ユニットと、を備える
ことを特徴とする請求項７に記載の装置。
コンピュータプロセッサによって実行されると車載音声命令の認識方法を実行するための１つ又は複数のコンピュータ実行可能命令を含む記憶媒体であって、前記方法は、
ユーザが入力した音声命令を取得するステップと、
予めトレーニングされたディープニューラルネットワークＤＮＮモデルに基づいてユーザの基本情報を決定するステップと、
前記ユーザの基本情報に基づいて音声命令に対してコンテンツ認識を行い、認識したコンテンツ及びユーザが前記音声命令を入力した場面で表示されたページのコンテキストに基づいて少なくとも１つのユーザの可能な意図を決定するステップと、
前記ＤＮＮモデルに基づいてユーザの可能な意図の信頼度を決定するステップと、
前記信頼度に基づいて前記ユーザの可能な意図からユーザの真意を決定するステップと、
前記ユーザの真意に基づいて対応する動作を実行するステップと、を含む
ことを特徴とする１つ又は複数のコンピュータ実行可能命令を含む記憶媒体。