JP7403569B2

JP7403569B2 - 音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7403569B2
Application number: JP2022050766A
Authority: JP
Inventors: リウ，ロォン
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2021-05-25
Filing date: 2022-03-25
Publication date: 2023-12-22
Anticipated expiration: 2042-03-25
Also published as: US20220215842A1; EP4095847A1; CN113299293A; KR20220041789A; JP2022105498A

Description

本出願は、データ処理技術の分野に関し、詳しくは音声認識技術の分野に関し、特に音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体、並びにコンピュータプログラムに関する。

「見たものは言えるもの」とは、音声インタラクションの過程中においてユーザがスクリーン上で読み取った文字を、音声で入力して音声対応動作を行うことができることを指す。

従来の「見たものは言えるもの」の実施形態は、インタフェース上のテキストをスキャンして保存し、認識の過程中にマッチングを行うことが多い。この実施形態では、上記のインタフェーステキストは認識エンジンの訓練を受けていないため、認識のヒット効果又はヒット効率が悪い。ユーザに発音欠陥（例えば、ｌとｒ、ｈとｆ、前、後の鼻音を区分できないなど）がある場合には、さらに効果又は効率が悪くなる。

音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提供する。

第１態様において、本出願の実施形態は、プッシュ情報に対応するプッシュテキストのデータを取得するステップと、プッシュテキストデータを拡張して拡張プッシュデータを取得するステップと、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識されたテキストのデータを音声アシスタントから取得するステップと、この認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するステップとを含む音声認識結果の処理方法を提供する。

第２態様において、本出願の実施形態は、プッシュ情報に対応するプッシュテキストデータを取得するように構成されるプッシュテキストのデータ取得ユニットと、プッシュテキストデータを拡張して拡張プッシュデータを取得するように構成される拡張プッシュデータの取得ユニットと、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを音声アシスタントから取得するように構成される認識ユニットと、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成される判定ユニットとを含む音声認識結果の処理装置を提供する。

第３態様において、本出願の実施形態は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも１つのプロセッサによって実行可能な指令が記憶され、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサが第１態様のいずれか一つの実施形態に記載の音声認識結果の処理方法を実行する電子機器を提供する。

第４態様において、本出願の実施形態は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第１態様のいずれか一つの実施形態に記載の音声認識結果の処理方法を実行させるためのものである非一時的コンピュータ可読記憶媒体を提供する。

第５態様において、本出願の実施形態は、プロセッサによって実行されると、第１態様のいずれか一つの実施形態に記載の音声認識結果の処理方法を実施することを特徴とするコンピュータプログラム製品を提供する。

本出願の実施形態によって提供される音声認識結果処理方法および処理装置は、まず、プッシュ情報に対応するプッシュテキストデータを取得する。そして、プッシュテキストデータを拡張して拡張プッシュデータを取得する。さらに、音声アシスタントから出力された、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを取得する。最後に、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。これにより、プッシュテキストデータを拡張してプッシュ情報に対応する拡張プッシュデータを取得し、認識テキストデータのマッチングのためにテキスト拡張を行い、音声認識結果をマッチングする際のデータの網羅性を保証するとともに、「見えたものは言えるもの」におけるめったに見られない字のマッチング成功率と発音欠陥者グループのためのマッチング成功率が低いという問題を効率的に解決することができる。

上記説明は、本出願の実施形態の肝心または重要な特徴を認識することが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解すべきである。本出願の他の特徴は、以下の説明によって理解しやすくなる。

本出願に係る音声認識結果処理方法の一実施形態のフローチャートである。本出願に係る拡張プッシュデータを取得する方法のフローチャートである。本出願に係る認識テキストデータがプッシュ情報にヒットしたと判定する方法の一つのフローチャートである。本出願に係る音声認識結果処理方法の他の実施形態のフローチャートである。本出願に係る音声認識結果処理装置の一実施形態の構成概略図である。本出願の実施形態に係る音声認識結果処理方法を実現するための電子機器のブロック図である。

本出願における図面は、本出願をよりよく理解するために使用されるものであって、本出願を限定するものではない。
以下、図面に関連して、本出願の例示的な実施形態を説明する。理解を容易にするために、本出願の実施形態の様々な詳細を含むが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に記載された実施形態は、本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識するであろう。同様に、以下の説明では、明確化かつ簡略化のために、公知の機能および構造の説明を省略する。

図１は、本出願に係る音声認識結果の処理方法の一実施形態のフローチャート１００を示す。上記音声認識結果処理方法は、以下のステップを含む。

ステップ１０１では、プッシュ情報に対応するプッシュテキストデータを取得する。

本実施形態では、プッシュ情報とは、ユーザにプッシュする情報を指す。プッシュ情報の内容が異なると、実現できるプッシュ情報に対応する動作も異なる。プッシュ情報の提示形式は異なっても良い。例えば、プッシュ情報に対応するプッシュテキストデータ（例えば、プッシュテキストデータは「ページジャンプ」である）がインタフェース上に表示され、ユーザがインタフェース上のプッシュテキストデータを読み取って音声情報を発し、音声アシスタントがユーザの音声情報を取得し、音声情報を認識されたテキストデータに変換して、音声認識結果処理方法を実行する実行主体に送信し、実行主体が上記の認識テキストデータを取得してプッシュテキストと同じであるか否かを判断し、同じであれば所定のページにジャンプする。

本実施形態では、プッシュ情報は、情報識別子、プッシュテキストデータを含んでもよい。音声認識結果処理方法を実行する実行主体はリアルタイムでプッシュ情報を取得し、プッシュ情報に基づいて実行すべき動作を決定することができる。

あるいは、プッシュ情報は、リアルタイムで取得してユーザインタフェース上に表示された動作情報であり得る。上記のプッシュ情報に対応するプッシュテキストデータを取得するステップは、プッシュ情報を取得するステップと、プッシュ情報をユーザインタフェース上に表示し、プッシュ情報をプッシュテキストデータに変換するステップとを含む。

あるいは、プッシュ情報は、ユーザインタフェース上に予め設定された動作情報であってもよい。上記の、プッシュ情報に対応するプッシュテキストデータを取得するステップは、ユーザインタフェース上に予め設定されたプッシュ情報を取得し、プッシュ情報をプッシュテキストデータに変換するステップを含む。

ステップ１０２では、プッシュテキストデータを拡張して拡張プッシュデータを取得する。

本実施形態では、プッシュテキストデータを拡張することにより、プッシュテキストデータのデータ量を拡充することができるので、音声アシスタントから出力された認識テキストデータとのマッチングを行う際に、マッチング範囲を拡大し、ユーザの意図を深く理解することができる。

本実施形態では、プッシュテキストデータを拡張するステップは、プッシュテキストデータをテキスト拡張することであってもよいし、プッシュテキストデータのピンイン（「
」）のデータを拡張してテキストとピンインとを含む混合データを取得することであってもよい。

あるいは、上記の、プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、プッシュテキストデータにおける単語または文字データを置換して（例えば、「張三」を「張然」に置換して）置換テキストデータを取得し、置換テキストデータとプッシュテキストデータとを組み合わせて拡張プッシュデータを取得することを含む。

本実施形態のいくつかのオプション的又は任意選択的な実施形態では、上記の、プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、プッシュテキストデータに対応するプッシュピンインデータを取得することと、プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換することとを含む。

このオプション的な実施形態では、まずプッシュテキストデータのプッシュピンインデータを取得し、そしてプッシュピンインデータに基づいて文字変換を行い、拡張プッシュデータを取得する。この拡張プッシュデータはプッシュテキストデータに対して、プッシュテキストデータのデータ量を拡充し、その後の音声アシスタントの認識テキストデータにマッチングするために、より信頼できる基礎を提供し、めったに見られないフレーズによるプッシュ情報における中国語の不一致という状況を補うことができる。

本実施形態のいくつかのオプション的な実施形態では、上記のプッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、さらに、予め設定された同義語辞書からプッシュテキストデータに対応する同義テキストデータを取得することと、同義テキストデータを拡張プッシュデータに追加することとを含んでもよい。

このオプション的な実施形態では、プッシュテキストデータと同じ意味を持つ同義テキストデータを拡張プッシュデータに追加することにより、拡張プッシュデータのデータ量を拡充し、同じ意味を持ちながら字が異なることによる中国語の不一致という状況を補うことができる。

あるいは、拡張プッシュデータは、さらに、プッシュテキストデータおよび拡張ピンインデータを含んでもよい。ここで、拡張ピンインデータはプッシュテキストから取得されたピンインデータであり、拡張ピンインデータはプッシュテキストデータに関連付けられている。拡張ピンインデータは、プッシュテキストデータのピンインデータ（すなわち、プッシュピンインデータ）を含んでもよい。

あるいは、拡張ピンインデータは、さらに、プッシュテキストデータのピンインデータおよびプッシュテキストデータの訂正後のピンインデータ、すなわち、プッシュピンインデータおよび訂正ピンインデータを含んでもよい。ここで、訂正ピンインデータは、プッシュピンインデータにおける一部の文字（子音（initial consonant of a syllable：「声母」）および／または母音（compound vowel of the syllable：「韻母」））を置換することによって取得されたピンインデータである。

音声認識結果処理方法を実行する実行主体は、インタフェース上のプッシュ情報をスキャンする過程で、プッシュテキストデータ（たとえば「
（パンシャン）」）およびプッシュテキストデータのピンインデータ（すなわち「panshan」）、プッシュテキストデータの訂正ピンインデータ（たとえば「pansan」、「pangshan」など）をマッピングして保存し、ユーザがインタフェーステキストを音声で入力した時に、それぞれテキストデータ、ピンインデータ、訂正ピンインデータの３レベルで、認識テキストデータと認識テキストデータのピンインデータとにそれぞれマッチングする。

ステップ１０３では、音声アシスタントから出力された認識テキストデータを取得する。

ここで、認識テキストデータは、ユーザがプッシュ情報を読み取る音声を認識することにより取得される。

本実施形態では、音声アシスタントは、音声情報を取得し、音声情報をテキストデータに変換するために用いられる。ユーザがプッシュ情報を読み取ると、音声アシスタントはユーザが発したプッシュ情報の音声を取得し、その音声を認識テキストデータに変換する。

音声アシスタントはニューラルネットワークモデルのような訓練済み音声認識モデルであってもよい。この音声認識モデルは、大量の音声タグ付きサンプルにより訓練されてなり、音声認識モデルにユーザ音声を入力し、音声認識モデルから出力された、ユーザ音声に関連付けられた認識テキストデータを取得する。

本実施形態のいくつかのオプション的な実施形態では、上記の、音声アシスタントから出力された認識テキストデータを取得するステップは、ユーザがプッシュ情報を読み取る音声を取得することと、音声を音声アシスタントに提供し、音声アシスタントから認識テキストデータを取得することとを含む。

このオプション的な実施形態では、取得したユーザが入力した音声を音声アシスタントに入力し、音声アシスタントからユーザの音声に対応する認識テキストデータを取得することにより、ユーザの音声入力の信頼性を保証し、取得された認識テキストデータの信頼性を向上させることができる。

ステップ１０４では、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。

本実施形態では、認識テキストデータにおける各データと拡張プッシュデータにおける各データとをいちいち照合し、認識テキストデータと拡張プッシュデータの両方に同じまたは類似している（例えば、類似度が９０％より大きい）データがある場合に、認識テキストデータと拡張プッシュデータとがマッチングしていると判定する。

本実施形態では、認識テキストデータがプッシュ情報にヒットしたとは、現在の状況が「見たものは言えるもの」であり、ユーザが発したプッシュ情報の音声に関する動作を実行してもよいことを示している。一方、認識テキストデータがプッシュ情報にヒットしていないことは、現在の状況が「見たものは言えるもの」ではないことを示している。

あるいは、認識テキストデータが拡張プッシュデータとマッチングしていないと判断したことに応答して、認識テキストデータがプッシュ情報にヒットしていないと判定し、何らの動作も実行しない。

認識テキストデータがプッシュ情報にヒットした後、実行主体は、プッシュ情報に応じた動作を実行することができる。なお、プッシュ情報に応じた動作は、プッシュ情報から指示された動作である。例えば、プッシュ情報にはＷｅｂページを開く指令とＷｅｂページのサイトが含まれると、プッシュ情報に応じた動作は、プッシュ情報におけるサイトに対応するＷｅｂページに直接ジャンプする。

本出願の実施形態によって提供される音声認識結果処理方法は、まず、プッシュ情報に対応するプッシュテキストデータを取得する。そして、プッシュテキストデータを拡張して拡張プッシュデータを取得する。さらに、音声アシスタントから出力された、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを取得する。最後に、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。これにより、プッシュテキストデータを拡張することでプッシュ情報に対応する拡張プッシュデータを取得し、認識テキストデータのマッチングのためにテキスト拡張を行い、音声認識結果をマッチングする際のデータの網羅性を保証するとともに、「見たものは言えるもの」におけるめったに見られない字のマッチング成功率と発音欠陥者グループのためのマッチング成功率が低いという問題を効率的に解決することができる。

本実施形態では、拡張プッシュデータは、複数種のテキストデータであり得る。各種のテキストデータは、プッシュテキストデータのピンインデータによって変換または置換されて取得されたテキストであり得る。図２は、本出願に係るプッシュテキストデータに対応する拡張プッシュデータを取得する方法のフローチャート２００を示す。上記の、プッシュテキストデータに対応する拡張プッシュデータを取得する方法は、以下のステップを含む。

ステップ２０１では、プッシュテキストデータに対応するプッシュピンインデータを取得する。

このオプション的な実施形態では、プッシュテキストデータは１種の中国語データである。従来のピンイン変換ツールにより、プッシュテキストを対応するプッシュピンインデータに変換することができる。

あるいは、音声認識結果処理方法を実行する実行主体は、複数のテキストデータに対応するピンインデータを予め記憶しておくことが可能であり、実行主体はプッシュテキストデータを取得した後に、予め記憶しているデータから、プッシュテキストデータに対応するプッシュピンインデータをクエリすることができる。

ステップ２０２では、プッシュピンインデータを第１のテキストデータに変換する。

このオプション的な実施形態では、プッシュピンインデータはプッシュテキストデータのピンインデータである。プッシュピンインデータを中国語テキストに変換することにより、第１のテキストデータを取得することができる。第１のテキストデータはプッシュテキストと同じ発音を有するすべてのテキストデータであり、第１のテキストデータにはプッシュテキストデータが含まれている。

ステップ２０３では、プッシュピンインデータにおける一部のピンイン文字を置換して訂正ピンインデータを取得する。

このオプション的な実施形態では、音声アシスタントが発音に欠陥のある人を認識する際に十分なマッチング対象データを提供するために、プッシュピンインデータにおける一部のピンイン文字を置換して訂正ピンインデータを取得することができる。

このオプション的な実施形態では、プッシュピンインデータにおける一部のピンイン文字を置換するステップは、予め設定された置換表（表１を参照）をクエリすることで、プッシュピンインデータにおける子音文字および／または母音を置換して、訂正ピンインデータを取得することを含む。例えば、表１におけるプッシュピンインデータ「lejin」の子音を置換して、「rejin」を取得した。「rejin」は訂正ピンインデータである。

このオプション的な実施形態では、子音または母音を置換することで発音に欠陥のある人のために信頼できるマッチングデータを用意することができる。

ステップ２０４では、訂正ピンインデータを第２のテキストデータに変換する。

このオプション的な実施形態では、訂正ピンインデータが第２のテキストデータのピンインデータである。訂正ピンインデータを中国語テキストに変換することにより、第２のテキストデータを取得することができる。

ステップ２０５では、第２のテキストデータと第１のテキストデータとを組み合わせて拡張プッシュデータを取得する。

このオプション的な実施形態では、拡張プッシュデータは、テキストデータからなるデータセットであり、当該データセットには第１のテキストデータおよび第２のテキストデータが混合され、第１のテキストデータにはさらに、プッシュテキストデータが含まれている。

このオプション的な実施形態では、上記の認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するステップは、認識テキストデータが第２のテキストデータと、第１のテキストデータとのうちのいずれか一つのデータにそれぞれマッチングすることに応答して、認識テキストデータがプッシュ情報にヒットしたと判定することを含む。

本実施形態に係るプッシュテキストデータに対応する拡張プッシュデータを取得する方法は、プッシュピンインデータに基づいて第１のテキストデータを取得するステップと、プッシュピンインデータに基づいて訂正ピンインデータを取得し、訂正ピンインデータを第２のテキストデータに変換するステップと、第２のテキストデータと第１のテキストデータとを組み合わせて拡張プッシュデータを取得するステップとを含む。これにより、拡張プッシュデータにおけるデータの多様性を向上させることができる。

図３は、本出願に係る認識テキストデータがプッシュ情報にヒットしたと判定する方法のフローチャート３００を示す。上記の認識テキストデータがプッシュ情報にヒットしたと判定する方法は以下のステップを含む。

ステップ３０１では、認識テキストデータが拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判断したことに応答して、認識テキストデータを認識ピンインデータに変換する。

このオプション的な実施形態では、認識テキストデータと拡張プッシュデータをマッチングする際には、まず認識テキストデータと拡張プッシュデータにおけるプッシュテキストデータとをマッチングする。認識テキストデータの各データとプッシュテキストデータにおけるいずれのデータとは同一でも類似でもない（例えば、両者の類似度が８０％より小さい）場合には、認識テキストデータが拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判定する。

このオプション的な実施形態では、認識ピンインデータは、認識テキストデータのピンインの表現形式である。認識ピンインデータに基づいて認識テキストのピンイン内容を確定する。

ステップ３０２では、認識ピンインデータと拡張ピンインデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。

このオプション的な実施形態では、まず認識ピンインデータにおける各データと拡張ピンインデータの各データとをいちいちマッチングする。認識ピンインデータにおけるデータと拡張ピンインデータのいずれかのピンインデータとがマッチングしている場合には、認識ピンインデータと拡張ピンインデータとがマッチングしていると判定する。

このオプション的な実施形態に係る認識テキストデータがプッシュ情報にヒットしたと判定する方法は、認識テキストデータを認識ピンインデータに変換し、拡張ピンインデータと認識ピンインデータとのマッチングにより認識テキストデータがプッシュ情報にヒットしたと判定する。これにより、認識テキストデータの認識に複数のオプション的なマッチング方式を提供し、認識テキストデータのマッチングの有効性を保証することができる。

本実施形態のいくつかのオプション的な実施形態では、拡張プッシュデータは、優先度の異なる拡張データを含む。認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するステップは、拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングすることと、拡張プッシュデータのうち、少なくとも１つの拡張データと認識テキストデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定することとを含む。

このオプション的な実施形態では、拡張データはテキストデータであってもよく、拡張データはピンインデータであってもよい。拡張プッシュデータはテキストデータとピンインデータを含むか、あるいは拡張プッシュデータはテキストデータを含む。拡張プッシュデータにおいては、テキストデータの優先度はピンインデータの優先度よりも高い。同様にテキストデータに属するデータの場合には、プッシュテキストデータに近いテキストデータほど優先度が高い。例えば、拡張プッシュデータはプッシュテキストデータとプッシュテキストに対応する同義テキストデータを含む場合には、プッシュテキストデータの優先度が当該同義テキストデータよりも高い。

あるいは、拡張プッシュデータはプッシュテキストデータとプッシュピンインデータを含む場合には、プッシュピンインデータの優先度がプッシュテキストデータの優先度よりも低い。

あるいは、拡張プッシュデータがプッシュテキストデータ、プッシュピンインデータ、および訂正ピンインデータを含む場合には、プッシュピンインデータの優先度はプッシュテキストデータの優先度よりも低く、訂正ピンインデータの優先度はプッシュピンインデータの優先度よりも低い。

このオプション的な実施形態では、拡張プッシュデータにおける各拡張データの優先度に基づいて認識テキストデータとのマッチングを行うことにより、認識テキストに最も近いデータを先にマッチングすることを保証し、「見たものは言えるもの」のマッチング効果を保証することができる。

本実施形態の一実例では、音声認識結果処理方法を実行する実行主体の実行ステップは次の通りである。ステップ１では、ユーザインタフェース上の要素（ボタン、テキストボックス等）をスキャンし、各要素におけるプッシュテキストデータを取得する。ステップ２では、プッシュテキストを拡張、マッピングおよび保存し、拡張プッシュデータを取得する。拡張プッシュデータは、プッシュテキストデータ（例えば、「
」）およびプッシュピンインデータ（すなわち、「panshan」）、訂正ピンインデータ（「pansan」、「pangshan」など）を含む。ステップ３では、ユーザは音声アシスタントを介して指令を入力し、音声アシスタントは指令を認識テキストデータとして認識する。ステップ４では、認識テキストデータと拡張プッシュデータとを次のように３段階のマッチングを行う。

１）認識テキストデータＲ１がキャッシュされた拡張プッシュデータにおけるプッシュテキストデータとマッチングするか否かを判定する（すなわち、認識テキストデータとプッシュテキストデータとを文字ごとにマッチングする）。

２）認識テキストデータＲ１がキャッシュされた拡張プッシュデータにおけるプッシュテキストデータとマッチングしていない場合には、認識テキストデータＲ１のピンインデータがキャッシュされた拡張プッシュデータにおけるプッシュピンインデータとマッチングするか否かを判定する。

３）認識テキストデータＲ１のピンインデータがキャッシュされた拡張プッシュデータにおけるプッシュピンインデータとマッチングしていない場合には、認識テキストデータＲ１のピンインデータが拡張プッシュデータにおける訂正ピンインデータとマッチングするか否かを判定する。

１）、２）、３）の三段階のマッチングのうち、いずれか一つの段階のマッチングが成功した場合には、次の段階のマッチングの判断を行わない（例えば、１）の段階のマッチングが成功した場合には、２）の段階のマッチングプロセスを実行しない）ようにするとともに、「見たものは言えるもの」にヒットしたと判定する。１）、２）、３）の３段階のマッチングがいずれも成功しなかった場合には、「見たものは言えるもの」にヒットしていないと判定する。

図４は、本出願に係る音声認識結果処理方法の他の実施形態のフローチャート４００を示す。上記の音声認識結果処理方法は、以下のステップを含む。

ステップ４０１では、プッシュ情報に対応するプッシュテキストデータを取得する。

ステップ４０２では、プッシュテキストデータを拡張して拡張プッシュデータを取得する。

ステップ４０３では、音声アシスタントから出力された認識テキストデータを取得する。

上記のステップ４０１～４０３における動作および特徴は、それぞれステップ１０１～１０３の動作および特徴に対応するので、ステップ１０１～１０３における動作および特徴に関する上記の説明は、ステップ４０１～４０３にも同様に適用可能であることを理解すべきである。ここではこれ以上説明しない。

ステップ４０４では、認識テキストデータが拡張プッシュデータとマッチングしていないと判断したことに応答して、認識テキストデータを拡張して拡張認識データを取得する。

本実施形態では、認識テキストデータを拡張して拡張認識データを取得するステップは、認識テキストデータに対応する認識ピンインデータを取得することと、認識ピンインデータを拡張認識データに変換することと、を含んでもよい。本実施形態では、拡張認識データとは認識テキストデータと同じ発音を有するテキストデータであり、拡張認識データには認識テキストデータが含まれている。

あるいは、上記の認識テキストデータを拡張して拡張認識データを取得するステップは、認識テキストデータに対応する認識ピンインデータを取得することと、認識ピンインデータを第１の選択待ちテキストデータに変換することと、認識ピンインデータにおける子音または母音を置換して代替ピンインデータを取得することと、代替ピンインデータを第２の選択待ちテキストデータに変換することと、第１の選択待ちテキストデータと第２の選択待ちテキストデータとを組み合わせて拡張認識データを取得することとを含んでもよい。

このオプション的な実施形態では、認識ピンインデータは認識テキストデータに対応するすべてのピンイン表現形式であり、代替ピンインデータは認識ピンインデータにおけるピンイン文字を置換したピンイン表現形式である。第１の選択待ちテキストデータは認識ピンインデータのすべての中国語表現形式であり、第２の選択待ちテキストデータは代替ピンインデータのすべての中国語表現形式である。

あるいは、上記の認識テキストデータを拡張して拡張認識データを取得するステップは、認識テキストデータに対応する認識ピンインデータを取得することと、認識ピンインデータにおける子音または母音を置換して代替ピンインデータを取得することと、認識テキストデータ、認識ピンインデータ、および代替ピンインデータを組み合わせて拡張認識データを取得することとを含んでもよい。

あるいは、上記の認識テキストデータを拡張して拡張認識データを取得するステップは、予め設定された同義語辞書から認識テキストデータに対応する同義テキストデータを取得し、認識テキストデータと認識テキストデータに対応する同義テキストデータとを組み合わせて拡張認識データを取得することを含んでもよい。

このオプション的な実施形態では、拡張認識データには、認識テキストデータと認識テキストデータの同義テキストデータが含まれている。

ステップ４０５では、拡張認識データと拡張プッシュデータとがマッチングしていることに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。

本実施形態では、拡張認識データにおける各データをそれぞれ拡張プッシュデータにおける各データとマッチングさせる。拡張認識データに拡張プッシュデータと同じまたは類似しているデータがある場合には、拡張認識データと拡張プッシュデータとがマッチングしていると判定する。

本実施形態では、拡張認識データと拡張プッシュデータとがマッチングしている場合には、音声アシスタントが取得した認識テキストが、プッシュ情報に対応するプッシュテキストデータに関連していることを示している。これにより、ユーザが音声を通じて「見たものは言えるもの」をトリガしようとしていると判定し、プッシュ情報に関する動作を実行する。

本実施形態に係る音声認識結果処理方法は、認識テキストデータが拡張プッシュデータとマッチングしていない場合には、認識テキストデータを拡張して拡張認識データを取得する。これにより、音声アシスタントの認識データを拡張し、音声の認識に誤りがあった時に信頼できるデータ根拠を提供し、音声認識の信頼性を保証することができる。

さらに図５を参照して、上記の各図に示す方法の実施形態として、本出願は音声認識結果処理装置の一実施形態を提供する。当該装置の実施形態は図１に示す方法の実施形態に対応する。当該装置は、具体的には、様々な電子機器に適用することができる。

図５に示すように、本実施形態に係る音声認識結果処理装置５００は、プッシュテキストデータ取得ユニット５０１と、拡張プッシュデータ取得ユニット５０２と、認識ユニット５０３と、判定ユニット５０４とを含む。ここで、上記のプッシュテキストデータ取得ユニット５０１は、プッシュ情報に対応するプッシュテキストデータを取得するように構成されていてもよい。上記の拡張プッシュデータ取得ユニット５０２は、プッシュテキストデータを拡張して拡張プッシュデータを取得するように構成されていてもよい。上記の認識ユニット５０３は、音声アシスタントから出力された、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを取得するように構成されていてもよい。上記の判定ユニット５０４は、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成されていてもよい。

本実施形態では、音声認識結果処理装置５００におけるプッシュテキストデータ取得ユニット５０１、拡張プッシュデータ取得ユニット５０２、認識ユニット５０３、判定ユニット５０４の具体的な処理およびそれによる技術的効果は、それぞれ、図１に対応する実施形態におけるステップ１０１、ステップ１０２、ステップ１０３、ステップ１０４について説明した内容を参照することができる。ここではこれ以上説明しない。

本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータ取得ユニット５０２は、第１の取得モジュール（図示せず）と、第１の変換モジュール（図示せず）とを含む。ここで、上記の第１の取得モジュールは、プッシュテキストデータに対応するプッシュピンインデータを取得するように構成されていてもよい。上記の第１の変換モジュールは、プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するように構成されていてもよい。

本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータ取得ユニット５０２は、第２の取得モジュール（図示せず）と、第２の変換モジュール（図示せず）と、置換モジュール（図示せず）と、第３の変換モジュール（図示せず）と、組み合わせモジュールとを含む。ここで、上記の第２の取得モジュールは、プッシュテキストデータに対応するプッシュピンインデータを取得するように構成されていてもよい。上記の第２の変換モジュールは、プッシュピンインデータを第１のテキストデータに変換するように構成されていてもよい。上記の置換モジュールは、プッシュピンインデータにおける一部のピンイン文字を置換し、訂正ピンインデータを取得するように構成されていてもよい。上記の第３の変換モジュールは、訂正ピンインデータを第２のテキストデータに変換するように構成されていてもよい。上記の組み合わせモジュールは、第２のテキストデータと第１のテキストデータとを組み合わせて拡張プッシュデータを取得するように構成されていてもよい。

本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータ取得ユニット５０２は、さらに、第４の取得モジュール（図示せず）と、追加モジュール（図示せず）とを含む。ここで、上記の第４の取得モジュールは、予め設定された同義語辞書からプッシュテキストデータに対応する同義テキストデータを取得するように構成されていてもよい。上記の追加モジュールは、同義テキストデータを拡張プッシュデータに追加するように構成されていてもよい。

本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータは、プッシュテキストデータと、プッシュテキストデータに基づいて取得された拡張ピンインデータとを含む。上記の判定ユニット５０４は、認識モジュール（図示せず）と、判定モジュール（図示せず）とを含む。ここで、上記の認識モジュールは、認識テキストデータが拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判断したことに応答して、認識テキストデータを認識ピンインデータに変換するように構成されていてもよい。上記の判定モジュールは、認識ピンインデータと拡張ピンインデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成されていてもよい。

本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータは、優先度の異なる拡張データを含む。上記の判定ユニット５０４は、マッチングモジュール（図示せず）と、ヒットモジュール（図示せず）とを含む。ここで、上記のマッチングモジュールは、拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングするように構成されていてもよい。上記のヒットモジュールは、拡張プッシュデータのうち、少なくとも１つの拡張データと認識テキストデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成されていてもよい。

本実施形態のいくつかのオプション的な実施形態では、上記の認識ユニット５０３は、第５の取得モジュール（図示せず）と、提供モジュール（図示せず）とを含む。ここで、上記の第５の取得モジュールは、ユーザがプッシュ情報を読み取る音声を取得するように構成されていてもよい。上記の提供モジュールは、音声を音声アシスタントに提供し、音声アシスタントから認識テキストデータを取得するように構成されていてもよい。

本実施形態のいくつかのオプション的な実施形態では、上記の装置５００は、さらに、判別ユニット（図示せず）と、ヒットユニット（図示せず）とを含む。ここで、上記の判別ユニットは、認識テキストデータが拡張プッシュデータとマッチングしていないと判断したことに応答して、認識テキストを拡張して拡張認識データを取得するように構成されていてもよい。上記のヒットユニットは、拡張認識データと拡張プッシュデータとがマッチングしていることに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成されていてもよい。

本出願の実施形態に係る音声認識結果処理装置では、まず、プッシュテキストデータ取得ユニット５０１はプッシュ情報に対応するプッシュテキストデータを取得する。そして、拡張プッシュデータ取得ユニット５０２はプッシュテキストデータを拡張して拡張プッシュデータを取得する。さらに、認識ユニット５０３は音声アシスタントから出力された、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを取得する。最後に、判定ユニット５０４は、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。これにより、プッシュテキストデータを拡張することでプッシュ情報に対応する拡張プッシュデータを取得し、認識テキストデータのマッチングのためのテキスト拡張が達成され、音声認識結果をマッチングする際のデータの網羅性を保証するとともに、「見たものは言えるもの」におけるめったに見られない字のマッチング成功率と発音欠陥者グループのためのマッチング成功率が低いという問題を効率的に解決することができる。

本出願の実施形態によれば、本出願はさらに、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラムを提供する

図６は、本出願の実施形態を実施するために使用されることができる例示的な電子機器６００の概略ブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本明細書に示すコンポーネント、それらの接続と関係、およびそれらの機能は、一例に過ぎず、本明細書に記載されたおよび／または要求した本明細書の実装を限定することは意図されていない。

図６に示すように、機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されたコンピュータプログラムまたは、記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作および処理を実行することができる計算ユニット６０１を含む。ＲＡＭ６０３には機器６００の動作に必要な各種プログラムおよびデータも記憶されることができる。計算ユニット６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インタフェース６０５もバス６０４に接続されている。

機器６００における複数のコンポーネントは、Ｉ／Ｏインタフェース６０５に接続されている。それには、キーボード、マウスなどの入力ユニット６０６と、各種のディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどの記憶ユニット６０８と、ＮＩＣ、モデム、無線通信送受信機などの通信ユニット６０９と、が含まれる。通信ユニット６０９は、機器６００が、インターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット６０１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット６０１は、上述した様々な方法および処理、例えば、音声認識結果処理方法を実行する。例えば、いくつかの実施形態では、音声認識結果処理方法は、記憶ユニット６０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ６０２および／または通信ユニット６０９を介して機器６００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、計算ユニット６０１によって実行される場合には、上述した音声認識結果処理方法の１つまたは複数のステップを実行することができる。あるいは、他の実施形態では、計算ユニット６０１は、他の任意の適切な方法を通じて（例えば、ファームウェアによって）、音声認識結果処理方法を実行するように構成されてもよい。

本明細書に述べた上記システムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、オンチップシステムのシステム（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装することができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラム内に実装されることを含んでもよい。当該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈することができる。当該プログラマブルプロセッサは、記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび指令を受信し、データおよび指令を当該記憶システム、当該少なくとも１つの入力デバイス、および当該少なくとも１つの出力デバイスに送信することができる専用または汎用プログラマブルプロセッサであり得る。

本明細書の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせを用いて書くことができる。これらのプログラムコードは、プロセッサまたはコントローラによって実行されるときに、フローチャートおよび／またはブロック図に規定された機能／動作を実施するように、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、独立したソフトウェアパッケージとして機械上で部分的に実行されかつ遠隔機械上で部分的に実行され、または完全に遠隔機械もしくはサーバ上で実行されることができる。

本明細書の文脈では、機械可読媒体は、指令実行システム、機器、もしくはデバイスが使用するため、または指令実行システム、機器、もしくはデバイスと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体としてもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体としてもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、機器もしくはデバイス、またはこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１本または複数本の導線に基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、携帯式コンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを有するコンピュータ上で実施されてもよく、ユーザはキーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはさらに、ユーザとのインタラクションを提供するために使用されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよい。ユーザからの入力は、任意の形態（音響入力、音声入力、または触覚入力を含む）で受信されてもよい。

本明細書に記載されたシステムおよび技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとして）、またはミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ。ユーザは当該グラフィカルユーザインターフェースまたは当該ウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態とインタラクションすることができる）、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含む計算システムにおいて実装されてもよい。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含んでもよい。クライアントおよびサーバは、通常、互いに離れており、一般的に通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータ上で動作し、かつ互いにクライアント・サーバの関係にあるコンピュータプログラムによって生成される。

本出願の技術的解決手段では、関連するユーザ個人情報の取得、記憶、応用などは、関連する法律法規の規定に合致しており、公序良俗に反しない。

なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。

上述した具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項１：
プッシュ情報に対応するプッシュテキストデータを取得するステップと、
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップと、
ユーザが前記プッシュ情報を読み取る音声を認識した認識テキストデータを音声アシスタントから取得するステップと、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含む音声認識結果処理方法。
請求項２：
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するステップと、
前記プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するステップと
を含む、請求項１に記載の音声認識結果処理方法。
請求項３：
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するステップと、
前記プッシュピンインデータを第１のテキストデータに変換するステップと、
前記プッシュピンインデータにおける一部のピンイン文字を置換して訂正ピンインデータを取得するステップと、
前記訂正ピンインデータを第２のテキストデータに変換するステップと、
前記第２のテキストデータと前記第１のテキストデータとを組み合わせて拡張プッシュデータを取得するステップと
を含む、請求項１に記載の音声認識結果処理方法。
請求項４：
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
予め設定された同義語辞書から前記プッシュテキストデータに対応する同義テキストデータを取得するステップと、
前記同義テキストデータを前記拡張プッシュデータに追加するステップと
を含む、請求項２または３に記載の音声認識結果処理方法。
請求項５：
前記拡張プッシュデータは、前記プッシュテキストデータと、前記プッシュテキストデータに基づいて取得された拡張ピンインデータとを含み、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップは、
前記認識テキストデータが前記拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判断したことに応答して、前記認識テキストデータを認識ピンインデータに変換するステップと、
前記認識ピンインデータと前記拡張ピンインデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含む、請求項１に記載の音声認識結果処理方法。
請求項６：
前記拡張プッシュデータは優先度の異なる拡張データを含み、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップは、
前記拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングするステップと、
前記拡張プッシュデータのうちの少なくとも１つの拡張データと、前記認識テキストデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含む、請求項１に記載の音声認識結果処理方法。
請求項７：
認識テキストデータを音声アシスタントから取得するステップは、
ユーザが前記プッシュ情報を読み取る音声を取得するステップと、
前記音声を音声アシスタントに提供し、前記音声アシスタントから認識テキストデータを取得するステップと
を含む、請求項１～６のいずれか一項に記載の音声認識結果処理方法。
請求項８：
前記認識テキストデータが前記拡張プッシュデータとマッチングしていないと判断したことに応答して、前記認識テキストを拡張して拡張認識データを取得するステップと、
前記拡張認識データと前記拡張プッシュデータとがマッチングしていることに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
をさらに含む、請求項７に記載の音声認識結果処理方法。
請求項９：
プッシュ情報に対応するプッシュテキストデータを取得するように構成されるプッシュテキストデータ取得ユニットと、
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するように構成される拡張プッシュデータ取得ユニットと、
ユーザが前記プッシュ情報を読み取る音声を認識した認識テキストデータを音声アシスタントから取得するように構成される認識ユニットと、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するように構成される判定ユニットと
を含む音声認識結果処理装置。
請求項１０：
前記拡張プッシュデータ取得ユニットは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するように構成される取得モジュールと、
前記プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するように構成される変換モジュールと
を含む、請求項９に記載の音声認識結果処理装置。
請求項１１：
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリに前記少なくとも１つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが請求項１～８のいずれか一項に記載の音声認識結果処理方法を実行することを特徴とする電子機器。
請求項１２：
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項１～８のいずれか一項に記載の音声認識結果処理方法を実行させるためのものである非一時的コンピュータ可読記憶媒体。
請求項１３：
プロセッサによって実行されると、請求項１～８のいずれか一項に記載の音声認識結果処理方法を実行するコンピュータプログラム。

Claims

以下の各ステップがコンピュータによって実行される音声認識結果処理方法であって、
プッシュ情報に対応するプッシュテキストデータを取得するステップと、
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップと、
ユーザが前記プッシュ情報を読み取る音声を認識した認識テキストデータを音声アシスタントから取得するステップと、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含み、
前記拡張プッシュデータは優先度の異なる拡張データを含み、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップは、
前記拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングするステップと、
前記拡張プッシュデータのうちの少なくとも１つの拡張データと、前記認識テキストデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含む音声認識結果処理方法。
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するステップと、
前記プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するステップと
を含む、請求項１に記載の音声認識結果処理方法。
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するステップと、
前記プッシュピンインデータを第１のテキストデータに変換するステップと、
前記プッシュピンインデータにおける一部のピンイン文字を置換して訂正ピンインデータを取得するステップと、
前記訂正ピンインデータを第２のテキストデータに変換するステップと、
前記第２のテキストデータと前記第１のテキストデータとを組み合わせて拡張プッシュデータを取得するステップと
を含む、請求項１に記載の音声認識結果処理方法。
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
予め設定された同義語辞書から前記プッシュテキストデータに対応する同義テキストデータを取得するステップと、
前記同義テキストデータを前記拡張プッシュデータに追加するステップと
を含む、請求項２または３に記載の音声認識結果処理方法。
前記拡張プッシュデータは、前記プッシュテキストデータと、前記プッシュテキストデータに基づいて取得された拡張ピンインデータとを含み、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップは、
前記認識テキストデータが前記拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判断したことに応答して、前記認識テキストデータを認識ピンインデータに変換するステップと、
前記認識ピンインデータと前記拡張ピンインデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含む、請求項１に記載の音声認識結果処理方法。
認識テキストデータを音声アシスタントから取得するステップは、
ユーザが前記プッシュ情報を読み取る音声を取得するステップと、
前記音声を音声アシスタントに提供し、前記音声アシスタントから認識テキストデータを取得するステップと
を含む、請求項１～５のいずれか一項に記載の音声認識結果処理方法。
前記認識テキストデータが前記拡張プッシュデータとマッチングしていないと判断したことに応答して、前記認識テキストを拡張して拡張認識データを取得するステップと、
前記拡張認識データと前記拡張プッシュデータとがマッチングしていることに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
をさらに含む、請求項６に記載の音声認識結果処理方法。
プッシュ情報に対応するプッシュテキストデータを取得するように構成されるプッシュテキストデータ取得ユニットと、
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するように構成される拡張プッシュデータ取得ユニットと、
ユーザが前記プッシュ情報を読み取る音声を認識した認識テキストデータを音声アシスタントから取得するように構成される認識ユニットと、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するように構成される判定ユニットと
を含み、
前記拡張プッシュデータは優先度の異なる拡張データを含み、
前記判定ユニットは、さらに、
前記拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングし、
前記拡張プッシュデータのうちの少なくとも１つの拡張データと、前記認識テキストデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するように構成される音声認識結果処理装置。
前記拡張プッシュデータ取得ユニットは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するように構成される取得モジュールと、
前記プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するように構成される変換モジュールと
を含む、請求項８に記載の音声認識結果処理装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリに前記少なくとも１つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサが請求項１～７のいずれか一項に記載の音声認識結果処理方法を実行することを特徴とする電子機器。
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項１～７のいずれか一項に記載の音声認識結果処理方法を実行させるためのものである非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～７のいずれか一項に記載の音声認識結果処理方法を実行するコンピュータプログラム。