JP2023504796A

JP2023504796A - 音声認識方法及び関連製品

Info

Publication number: JP2023504796A
Application number: JP2022531437A
Authority: JP
Inventors: ワン，ゲンシュン; ガオ，ジエンチン; ワン，チグォ
Original assignee: アイフライテックカンパニー，リミテッド
Priority date: 2019-12-28
Filing date: 2020-12-14
Publication date: 2023-02-07
Anticipated expiration: 2040-12-14
Also published as: WO2021129439A1; EP4083999A1; EP4083999A4; US20230035947A1; CN111161739B; KR20220054587A; JP7413533B2; CN111161739A

Abstract

本発明は、音声認識方法及び関連製品を開示し、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定すること（Ｓ１０１）と、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行すること（Ｓ１０２）とを含む。予め設定されたシーンにおける端末を用いて予め設定されたシーンのテキスト内容及びテキスト時間情報を取得し、予め設定されたシーンの共有テキストを決定することにより、共有テキストに基づいてカスタム言語モデルを取得することができ、カスタム言語モデルと予め設定されたシーンの関係性がより高いため、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行すると音声認識の精度が効果的に高められる。

Description

相互参照

本発明は、２０１９年１２月２８日に提出した出願番号ＣＮ２０１９１１３８９６７３．Ｘ、発明名称「音声認識方法及び関連製品」である先願の優先権を主張し、その先願の内容はここで参照として本明細書に引用される。

本発明は、音声認識技術分野に関し、特に音声認識方法及び関連製品に関する。

音声認識技術は、機器が認識及び理解の過程で音声信号を対応するテキスト又は命令に変換する技術である。

従来技術では、会議、講演、インタビュー又は授業などの場面について、その場で音声認識を行う前に、当該場面の関連するテキスト資料又はキーワードなどを事前に取得し、音声認識モデルの更新を行う必要があり、更新後の音声認識モデルを用いて音声認識を行うことで、その場面の領域認識効果を高める。ただし、この解決手段は、関連シーンの資料を入手し、人の介入が必要であるため、使用シーンには制限がある。また使用シーンでテーマ変更など、突然又は一時的な変更が生じる場合、従来の音声認識モデルが認識効果を最適化できないことで、音声認識精度が低下し、ユーザーの全体的な体験に影響を与える。

本発明の実施例は、音声認識の精度が高められる音声認識方法及び関連製品を提供する。

第１の態様において、本発明の実施例は音声認識方法を提供し、当該音声認識方法は、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定することと、
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することとを含む。

一実施形態において、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には、
前記共有テキストに対して単語分割・分類処理を行いキーワードを取得し、前記キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することと、
カスタム言語モデル及び前記新しいホットワードリストにより音声認識を実行することとを含む。

一実施形態において、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前に、前記方法は、さらに
前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キーワードに基づいて前記予め設定されたシーンのホットワードリストを更新し、新しいホットワードリストを取得することを含む。

一実施形態において、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には、
前記カスタム言語モデル及び前記新しいホットワードリストを用いて前記予め設定されたシーンの音声認識を実行することを含む。

一実施形態において、前記新しいホットワードリストの有効時点は、前記新しいホットワードリストの生成時点である。

一実施形態において、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定することは、具体的には、
予め設定されたシーンの音声を収集して認識し、センテンステキストとセンテンス時間情報とを含む音声認識結果を取得することと、
前記テキスト時間情報及び前記センテンス時間情報に基づいてマッチングし、前記センテンス時間情報と一致する場合、前記テキスト時間情報に対応する前記テキスト内容を前記共有テキストとすることとを含む。

一実施形態において、前記方法は、さらに前記音声認識結果を前記共有テキストとすることを含む。

一実施形態において、前記共有テキストに対して単語分割・分類処理を行いキーワードを取得し、前記キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することは、具体的には、
前記共有テキストに対して単語分割、分類処理を行い、フレーズ集合又はセンテンス集合を取得することと、
フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定することとを含み、前記単語頻度は、前記フレーズ集合又は前記センテンス集合における前記フレーズの出現回数である。

一実施形態において、前記フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定することは、具体的には、
前記フレーズ集合における各フレーズの単語頻度を取得することと、
前記単語頻度が前記単語頻度の閾値以上、かつ異なる端末から送信されたフレーズを前記キーワードとすることと、
ＴＦ－ＩＤＦアルゴリズムを用いて、前記単語頻度が前記単語頻度の閾値より小さいフレーズから、前記キーワードを選別することとを含む。

一実施形態において、フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定する前には、さらに
前記ホットワードリストに基づいて前記フレーズ集合をフィルタリングすることを含む。

一実施形態において、前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キーワードに基づいてホットワードリストを更新して、新しいホットワードリストを取得することは、さらに
前記キーワードの間又は前記キーワードと前記ホットワードリストとの間に存在する同音異義語を決定することと、
前記同音異義語を有する前記センテンステキストを決定し、前記センテンステキストにおける同音異義語を置き換え、置き換えた後のセンテンステキストを取得することと、
前記置き換えた後のセンテンステキストの音声モデル得点に基づいて、言語モデル得点
が最も高い同音異義語を前記新しいホットワードリストの単語とすることとを含む。

一実施形態において、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前には、さらに
前記音声認識結果に対して段落分割処理を行って段落の分割時点を取得し、前記分割時点の後に、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することを含む。

一実施形態において、前記分割時点の後、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得することは、
前記テキスト内容と前記音声認識結果との間のテキスト類似度を決定することと、
前記テキスト類似度及び類似度閾値に基づいて、テキスト類似度が前記類似度閾値より低い前記テキスト内容をフィルタリングすることとを含む。

一実施形態において、前記複数台の端末は、第１の端末と第２の端末を含み、前記分割時点の後に、前記方法は、さらに
前記第１の端末と前記第２の端末のテキスト内容の間のテキスト類似度を第１のテキスト類似度として取得することと、
第１のテキスト類似度が第１の類似度の設定閾値より大きい前記第１の端末の数量を取得することと、
前記第１の端末から送信されたテキスト内容と前記第１の端末から送信された音声認識結果との間のテキスト類似度を第２のテキスト類似度として取得することと、
前記数量及び前記第２のテキスト類似度に基づいて前記第１の端末から送信された共有テキストをフィルタリングすることとを含む。

一実施形態において、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得することは、
現在の音声段落認識が終了した後に得られた段落集合における共有テキストに基づいて初期言語モデルを取得することと、
初期言語モデル及び予め設定された言語モデルに基づいて確率補間処理を行い、カスタム言語モデルを取得することとを含む。

一実施形態において、前記テキスト内容は、前記予め設定されたシーンに関してユーザーが前記端末で作成した内容であり、
前記テキスト内容は、前記予め設定されたシーンに基づいてユーザーが作成したメモ、前記予め設定されたシーンに関する電子資料にユーザーが作成したマーク、ユーザースマート端末をユーザーが使って撮影した文字情報を含む写真の少なくとも一つを含む。

第二の態様において、本発明の実施例は、音声認識装置を提供し、当該音声認識装置は、
予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定する取得ユニットと、
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する認識ユニットとを含む。

第三の態様において、本発明の実施例は、コンピュータ記憶媒体を提供し、前記コンピ
ュータ記憶媒体にはコンピュータプログラムが格納され、前記コンピュータプログラムにはプログラム命令を含み、前記プログラム命令は、プロセッサによって実行される時に、本出願の実施例の第一の態様に記載されるステップの一部又は全部を実行する。

第四の態様において、本出願の実施例は、コンピュータプログラム製品を提供し、上記コンピュータプログラム製品は、コンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含み、上記コンピュータプログラムは、本出願の実施例の第一の態様に記載されるステップの一部又は全部をコンピュータに実行させるように動作する。当該コンピュータプログラム製品はソフトウェアインストールパッケージであってもよい。

本発明の実施例では、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定し、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する。

したがって、本発明の実施例の技術案は、予め設定されたシーンにおける端末を用いて予め設定されたシーンのテキスト内容及びテキスト時間情報を取得し、予め設定されたシーンの共有テキストを決定することにより、共有テキストに基づいてカスタム言語モデルを取得することができ、カスタム言語モデルと予め設定されたシーンとの関係性がより高いため、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行すると、音声認識の精度が効果的に高められる。

本発明の実施例の技術案をより明確に説明するために、以下、実施例の説明に必要な図面について簡単に説明する。以下説明される図面は本発明のいくつかの実施例であり、当業者にとっては、創造的な労力を要することなく、これらの図面から他の図面を得ることができることは自明である。

本発明の実施例一に係る音声認識方法のフローチャートである。本発明の実施例一に係るステップ１０２のフローチャートである。本発明の実施例二に係るステップ１０１のフローチャートである。本発明の実施例二に係る共有テキストの取得時間を示す図である。本発明の実施例二に係る共有テキストの取得時間帯を示す図である。本発明の実施例三に係るステップＳ２０１のフローチャートである。本発明の実施例三に係る共有テキスト集合を示す図である。本発明の実施例四に係るテキスト内容のフィルタリングのフローチャートである。本発明の実施例五に係る音声認識装置の構造を示す図である。

以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。

本出願の明細書、特許請求の範囲及び図面における「第１」、「第２」などの用語は、異なる対象を区別するためのものであり、特定の順序を説明するためのものではないことが理解されるべきである。また、用語の「含む」及び「有する」及びそれらの任意の変形は、排他的でないものをカバーすることを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、リストされているステップ又
はユニットに限定されず、選択肢として、リストされていないステップ又はユニット、又は選択肢として、これらのプロセス、方法、製品又は装置に固有の他のステップ又はユニットをさらに含む。

本発明で言及される「実施例」は、実施例を参照して説明される特定の特徴、構造又は特性が、本発明の少なくとも１つの実施例に含まれることができることを意味する。本明細書の任意の部分に当該フレーズが現れることは、必ずしもすべてが同じ実施例を指すわけではなく、また、他の実施例と相互に排他的である独立した又は代替的な実施例を指すわけでもない。本発明に記載されている実施例が他の実施例と組み合わせてもよいことは、当業者にとっては明示的にも暗黙的にも理解されるべきである。

本明細書の予め設定されたシーンとは、音声データを文字データに変換する音声認識シーン（講演、研修、会議、インタビュー、授業など）を指す。なお、端末とは、携帯電話、タブレットＰＣ、ノートパソコン、ボイスレコーダー、スマートオフィスノートなどの端末装置を含み、ネットワーク通信能力と記録能力（撮影、テキスト編集の機能など）を備えるユーザースマート端末を指す。

実施例一
図１を参照し、図１は、音声認識方法を提供し、当該方法は、電子機器で実行され、当該電子機器は、汎用コンピュータ、サーバーなどであってもよく、当然、実際の応用でデータ処理センター、クラウドプラットフォームなどであってもよく、本出願は上記の電子機器の具体的な実装形態を限定するものではない。図１に示すよう、当該方法は次のステップを含む。

Ｓ１０１：予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定する。

具体的には、複数台の端末の利用者は同じ予め設定されたシーンにあり、例えば、多くの利用者は同じ会議に参加する。テキスト時間情報は、上記のテキスト内容の生成時間である。Ｓ１０１の具体的な実施形態は、実施例二の説明を参照できるので、ここでは省略する。

Ｓ１０２：共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する。
上記のＳ１０２の具体的な実施形態は、実施例四の説明を参照できるので、ここでは省略する。

さらに、図２を参照し、図２は、本発明の実施例一に係るステップ１０２のフローチャートであり、Ｓ１０２は以下を含む。
Ｓ２０１：共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得する。Ｓ２０２：カスタム言語モデル及び新しいホットワードリストにより音声認識を実行する。

具体的には、Ｓ２０１、Ｓ２０２の具体的な実施形態は、実施例三の説明を参照できるので、ここでは省略する。

選択肢として、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前に、前記方法は、さらに
前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得することと、前記キーワードに基づいて前記予め設定されたシーンのホットワードリストを更新し、新しいホットワードリストを取得することとを含む。

選択肢として、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には前記カスタム言語モデル及び前記新しいホットワードリストを用いて前記予め設定されたシーンの音声認識を実行することを含む。

具体的には、キーワードの取得方法、新しいホットワードリストの取得方法、カスタム音声モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行する方法は、下記の実施例の説明を参照できるので、ここでは省略する。

選択肢として、前記新しいホットワードリストの有効時点は、前記新しいホットワードリストの生成時点であり、ホットワードが速やかに有効になるので、音声認識の精度が高められる。

本発明の実施例では、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定し、共有テキストに基づいて予め設定されたシーンのカスタム言語モデル及びキーワードを取得し、キーワードに基づいて予め設定されたシーンのホットワードリストを更新し、新しいホットワードリストを取得し、カスタム言語モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行する。したがって、本発明の実施例の技術案は、予め設定されたシーンにおける端末を用いて予め設定されたシーンのテキスト内容及びテキスト時間情報を取得し、予め設定されたシーンの共有テキストを決定し、したがって、共有テキストに基づいてカスタム言語モデルを取得し、ホットワードリストを更新し、新たに取得したホットワードリスト及びカスタム言語モデルと予め設定されたシーンとの関係性がより高いので、カスタム言語モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行すると、音声認識の精度が効果的に高められる。

実施例二
実施例一に基づいて実施例二を提供し、上記のテキスト内容とは、ユーザーが端末で作成した予め設定されたシーンに関する内容を指し、ユーザーが予め設定されたシーンに基づいて作成したメモ、ユーザーが予め設定されたシーンに関する電子資料に作成したマーク、ユーザーがユーザースマート端末を使って撮影した文字情報を含む写真などを含む。このうち、メモとしては、用紙や講義ノートなどの紙媒体を用いて手書きしたメモ、又は、電子メモ帳、ワード、ＰＤＦ、パワーポイントなどの電子記録媒体を用いて手動で入力したメモなどが挙げられる。なお、予め設定されたシーンに関する電子資料は、ユーザースマート端末で受信され、又はローカルで生成された音声認識結果のドキュメント、音声認識シーンの電子シーン資料（講演、研修、会議などのパワーポイント、ＰＤＦ、ワードなどの電子資料）を含む。予め設定されたシーンに関する電子資料のマークは、ユーザーが音声認識結果のドキュメント又は電子シーン資料の内容変更、重要な箇所を目立たせるためにつけたマークなどを含む。

さらに、端末でテキスト内容及び対応するテキスト時間情報を決定できる。例えば、
Ａ：ユーザーが入力ツールを利用して手動で入力したメモの場合、当該メモに基づいて対応するテキスト内容を直接決定でき、メモ文字の入力時間を当該テキスト内容の生成時間、即ちテキスト時間情報とする。
Ｂ：ユーザーがユーザースマート端末で作成した手書きメモの場合、手書き認識原理に基づいて手書きメモを処理することによって対応するテキスト内容を取得でき、手書き時間
を当該テキスト内容の生成時間、即ちテキスト時間情報とする。
Ｃ：ユーザーが予め設定されたシーンに関する電子資料に作成したマークの場合、光学的文字認識原理に基づいて予め設定されたシーンに関する電子資料を処理することによって、マークに対応するテキスト内容を取得でき、マークの操作時間、即ちマーク時間を当該テキスト内容の生成時間、即ちテキスト時間情報とする。
Ｄ：ユーザーがユーザースマート端末を用いて撮影した文字情報を含む写真の場合、光学的文字認識原理に基づいて写真を処理することによって、写真におけるテキスト内容を認識し、写真の撮影時間を当該テキスト内容の生成時間、即ちテキスト時間情報とする。

図３を参照し、図３は、本発明の実施例二に係るステップ１０１のフローチャートであり、Ｓ１０１は、具体的には以下を含む。

Ｓ３０１：予め設定されたシーンの音声を収集して認識し、センテンステキストとセンテンス時間情報とを含む音声認識結果を取得する。
具体的には、予め設定されたシーンにおける端末のリアルタイム音声認識アプリケーションを用いて音声認識を行い、音声認識結果を取得する。センテンスのテキストは音声節の認識テキストであり、センテンス時間情報は音声節の認識終了時間（即ち音声認識と同期に生成する端点検出情報の時点に基づいて決定した時間境界）である。

Ｓ３０２：テキスト時間情報及びセンテンス時間情報に基づいてマッチングを行い、センテンス時間情報にマッチングする場合、テキスト時間情報に対応するテキスト内容を共有テキストとする。
具体的には、端末から送信されたテキスト内容について、テキスト内容のテキスト時間情報は、音声節の音声認識開始時間から音声節の認識終了時間までの期間にある場合、テキスト時間情報とセンテンス時間情報がマッチングするとみなし、テキスト時間情報に対応するテキスト内容を共有テキストとする。本発明の実施例では、また端末で生成された音声認識結果を共有テキストとし、Ｓ３０２の後に取得した共有テキストは他の端末から送信されたテキスト内容であるため、本実施例では本端末で認識した音声認識結果を共有テキストとし、より正確的な共有テキストを取得することで、その後に生成したカスタム言語モデルの精度を高め、よって言語認識の精度が高められる。

以下、共有テキストの取得過程について説明する。
予め設定されたシーンにおける複数の端末について、既存のローカルエリアネットワークを用いて複数の端末間の相互通信を実現し、予め設定されたシーンにおける複数の端末の相互通信のための経路を構築することができる。複数の端末うち、任意の端末の利用者が端末のリアルタイム音声認識アプリケーションを使用してテキスト共有請求の同期情報を当該ローカルエリアネットワーク内のすべての端末に送信する。同期情報を受信した端末の利用者が当該テキスト共有請求に応答し、テキスト共有に参加するか否かを確認する。テキスト共有に参加する複数の端末からグループを構成し、実際の音声認識シーンにおいて、端末の時間が利用者の人為的な妨害（タイムゾーンの設定又は時間情報の手動調整など）を受けることを考慮し、同じグループの端末の時間を統一し、その後に送信するテキスト内容及び音声認識結果の時間的な整合性を確保する必要がある。グループにおける任意の端末を時間サーバーとして選択し、当該端末の時間を基準時間とし、その後にその他の端末では、当該時間を基準に、ネットワーク・タイム・プロトコル（ＮｅｔｗоｒｋＴｉｍｅＰｒоｔоｃоｌ、ＮＴＰ）を用いて時間の同期を行い、その後に送信するテキスト内容及び音声認識結果の時間的な整合性を保証する。

時間情報の同期によりすべての端末の時間情報の整合性が確保されたため、リアルタイム音声認識結果を生成する同時に（各センテンスの結果には時間情報を有する）、既存の段落分割ポリシーに合わせてリアルタイムな段落分割を行い、現在の段落の開始時間Ｔ_ｎ
_{－ｂｅｇｉｎ}及び終了時間Ｔ_{ｎ－ｅｎｄ}を共有テキストの時間帯（即ち共有テキストの取得時間帯）として確認する。即ち図４に示すように、図４は本発明の実施例二に係る共有テキストの取得時間を示す図である。現在の段落の開始時間Ｔ_{ｎ－ｂｅｇｉｎ}はテキスト変換の開始時点（Ｔ_{０－ｂｅｇｉｎ}）又は前の段落分割の終了時点（Ｔ_{ｎ－１－ｂｅｇｉｎ}）である。終了時間Ｔ_{ｎ－ｅｎｄ}は、リアルタイムな段落分割の段落終了節に対応する時点である。決定した現在の段落の終了時間Ｔ_{ｎ－ｅｎｄ}は共有テキストで決定したカスタム言語モデルが有効となる時点であり、カスタム言語モデルの決定ポリシーについて実施例四を参照する。このうち、終了時間帯Ｔ_{ｎ－ｅｎｄ}において、選別と整理により取得された共有テキストを用いてカスタム言語モデルを更新し、更新したカスタム言語モデルを利用して当該段落の２回認識結果を再評価し（ｒｅｓｃоｒｅ）、次の段落のリアルタイムな復号化を行う。

また、音声認識結果と同期に生成した端点検出情報から決定した節の情報に基づいて、当該時間帯内のテキスト内容の取得回数及びホットワードの有効時間を決定する。具体的には、図５に示すように、図５は本発明の実施例二に係る共有テキストの取得時間帯を示す図である。Ｔ_{ｎ－ｂｅｇｉｎ}を現在の共有テキストの取得時間帯の開始時刻とし、Ｔ_{ｎ－ｅｎｄ}を現在の共有テキストの取得時間帯の終了時刻とする。なお、当該音声段落内のｍ個の音声節について、音声認識と同期に生成した端点検出の時点に基づいて時間境界を決定する、各節の後（例えば、Ｔ_ｎ－１，Ｔ_ｎ－２，Ｔ_ｎ－３…Ｔ_ｎ－ｍ）はいずれも１回の共有テキストの共有を行い、つまり取得されたテキスト内容のテキスト時間情報は現在の節内にあり、かつ前の時点内にない場合、当該テキスト内容を取得することができる。取得された共有テキストから新しいホットワード（即ちキーワード、キーワードの確認方法について実施例三を参照する）を取得できる場合、例えばＴ_ｎ－２で新しいホットワードを取得したことを確認すれば、当該ホットワードを直ちにホットワードリストに追加され、つまりＴ_ｎ－２から当該ホットワードが有効になる。

実施例三
図６を参照し、図６は本発明の実施例三に係るステップＳ２０１のフローチャートであり、以下、共有テキスト集合に基づいてキーワードを取得する方法について説明し、つまりＳ２０１は具体的には以下を含む。

Ｓ６０１：共有テキストに対して単語分割、分類処理を行い、フレーズ集合又はセンテンス集合を取得する。
具体的には、現在の時間帯内の共有テキスト集合を構築し、実施例二で決定された共有テキスト構築用の取得時間帯に基づいて共有テキスト集合を構築し、現在の時間帯内［Ｔ_{ｎ－ｂｅｇｉｎ}，Ｔ_{ｎ－ｅｎｄ}内］の各時刻｛Ｔ_ｎ－１，Ｔ_ｎ－２，…，Ｔ_ｎ－ｍ｝内に収集されたテキスト内容を対象に単語分割・分類を行い、主に単語（フレーズ）、センテンス（段落）の２種類に分かれ、フレーズ集合及びセンテンス集合を取得する。単語分割後の単語の数量が２より小さい場合、単語（フレーズ）種類に該当するとみなし、そうでない場合、センテンス（段落）種類に該当する。Ｔ_ｎ－１及びＴ_ｎ－ｍで収集した異なる端末の間の共有テキスト集合について、図７に示すように、図７は本発明の実施例三に係る共有テキスト集合を示す図である。このうちＷ_{ｔ１－ｄ１－ｉｄ１}は、時刻ｔ１のデバイスｄ１で取得された単語番号ｉｄ１を表し、Ｓ_{ｔ１－ｄ１－ｉｄ１}は、時刻ｔ１の端末ｄ１で取得されたセンテンス（段落）番号ｉｄ１を表し、｛Ｒ_１，…，Ｒ_ｎ－１｝は、現在の時間帯内で取得されたリアルタイムのｎ－１個の段落の音声認識結果を表す。

Ｓ６０２：ホットワードリストに基づいてフレーズ集合をフィルタリングする。
具体的には、予め設定されたシーンのホットワードリストは、予め手動で入力された単語からなることであってもよい。ホットワードリストの単語と同じであるフレーズについて、フレーズ集合から削除される。例えば、単語番号ｉｄ１の単語がホットワードリストに
含まれている場合、単語（フレーズ）集合｛Ｗｔａ－ｄｂ－ｉｄｃ｝から削除される。

Ｓ６０３：フレーズの単語頻度及び単語頻度の閾値に基づいてキーワードを決定し、単語頻度は、フレーズ集合又はセンテンス集合におけるフレーズの出現回数である。

具体的には、Ｓ６０３は以下を含む。

Ｅ１：フレーズ集合における各フレーズの単語頻度を取得する。
具体的には、フレーズ集合又はセンテンス集合における各フレーズの出現回数を単語頻度として計算する。

Ｅ２：単語頻度が単語頻度の閾値以上、かつ異なる端末から送信されたフレーズをキーワードとする。
具体的には、単語頻度の閾値は実際の状況に応じて調整されてもよい。例えば、単語頻度の閾値を２とする。

Ｅ３：ＴＦ－ＩＤＦアルゴリズムを利用し、単語頻度が単語頻度の閾値より小さいフレーズからキーワードを選別する。
具体的には、本実施例において、単語頻度が単語頻度の閾値より小さいフレーズについて、引き続きＴＦ－ＩＤＦアルゴリズムを利用し、キーワードを選別し、まずフレーズの統一の単語頻度を計算する。このうち、センテンス集合におけるあるフレーズの出現回数を単語頻度として計算し、当該単語頻度とセンテンス集合の合計単語数の比を当該フレーズの統一の単語頻度とする。その後、あるフレーズの逆文書頻度を計算し、逆文書頻度の計算式はｌоｇ（予め設定されたコーパスの文章総数／（あるフレーズを含む文章総数＋１））であり、予め設定されたコーパスは、予め設定されたシーンの言語モデルを訓練する時に使用される文章コーパスの集合であってもよい。その後、統一の単語頻度と逆文書頻度の積を当該フレーズの関係性得点とし、得点の閾値とフレーズの関係性得点に基づいてキーワードを選別し、得点の閾値の具体的な数値について、実際の状況に応じて設定され、関係性得点が得点の閾値以上のフレーズをキーワードとする。

注意すべき点として、ユーザーによって同一のフレーズの手書き結果が異なるので、誤字又は光学的文字認識エラーなどの場合がある。Ｓ６０３で決定されたキーワードは、ホットワードリストにおけるフレーズとは同音異義のフレーズであり、又はキーワードの間に同音異義のフレーズがあるため、さらに同音異義のフレーズを選別する必要があり、言語モデルの得点に基づいて同音異義のフレーズを選別し、言語モデルの得点が高い同音異義のフレーズをホットワードリストのキーワードとして確認する。具体的には、Ｓ２０１はさらに以下を含む。

Ｆ１：キーワードの間又はキーワードとホットワードリストとの間に存在する同音異義語を決定する。
キーワード及びホットワードリストにおけるフレーズに対して、モデリング辞書のマッピングを行うことによって、それらの中に同音異義のフレーズがあるかどうかを確認する。例えば、声母・韻母モデリングユニット又は主母音モデリングユニットにマッピングされることによって、キーワードの同音異義のフレーズを見つけることができる。あるキーワードと他のキーワード及びホットワードリストとを比較した後に、同音異義のフレーズが見つからない場合、直接に当該キーワードをホットワードリストに追加する。

Ｆ２：同音異義語があるセンテンステキストを判定し、センテンステキストにおける同音異義語を置き換えて、単語が置き換えられた後のセンテンステキストを取得する。

Ｆ３：単語が置き換えられた後のセンテンステキストの音声モデルの得点に基づいて、言語モデルの得点が最も高い同音異義語を新しいホットワードリストの単語とする。
まず、当該キーワードがセンテンス集合で出現するセンテンスを見つけて、その後に単語の置き換えによって複数のセンテンスを取得する。また複数のセンテンスの言語モデルの得点を計算し、言語モデルの得点に基づいて確認し、言語モデルの得点が高いフレーズをホットワードリストの単語として選択する。ここで、言語モデルの得点は既存の言語モデルを利用して計算されてもよい。例えば、キーワード「トマト世界一の大富豪」の同音異義のフレーズは、「西虹市世界一の大富豪」であり、それぞれ出現するセンテンス、例えば、「トマト世界一の大富豪は、沈騰、宋芸樺などの主演したコメディー映画である」及び「西虹市世界一の大富豪が２０１８年に公開された」を発見する。その中のキーワードを置き換え、それぞれ{「トマト世界一の大富豪は、沈騰、宋芸樺などの主演したコメデ
ィー映画である」、「西虹市世界一の大富豪は沈騰、宋芸樺などの主演したコメディー映画である」}及び{「トマト世界一の大富豪は２０１８年に公開された」、「西虹市世界一の大富豪は２０１８年に公開された」}の２つのセンテンス対を生成し、それぞれその言
語モデルの得点を比較する。２つのセンテンス対とも「西虹市世界一の大富豪」が存在するセンテンスの言語モデルの得点が高ければ、「トマト世界一の大富豪」は間違ったキーワードであり、「西虹市世界一の大富豪」は正しいキーワードであると判明し、「西虹市世界一の大富豪」をホットワードリストの単語とする。

キーワードとその同音異義のフレーズの音声モデルの得点を計算して選別することにより、言語モデルの得点が同音異義のフレーズより高いキーワードをホットワードリストに追加する。キーワードは加入された後にすぐに有効となり、言語モデルの得点が低い同音異義のフレーズを削除する。音声モデルの得点が同じである場合、キーワードを同音異義のフレーズとともにホットワードリストの単語とする。逆に、あるキーワードの言語モデルの得点が同音異義のフレーズより低い場合、当該キーワードを削除する。

同音異義のフレーズを選別することにより、正しいキーワードを判定し、音声認識の精度を保証することができる。

実施例四
実施例一及び実施例二に基づいて、実施例四を提供する。本実施例では、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する前には、さらに以下を含む。

音声認識結果に対して段落分割処理を行って段落の分割時点を取得し、分割時点の後に、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する。

具体的には、現在の音声段落認識終了を確認した後、当該音声段落に対応して取得した共有テキストに基づいて、予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて次の音声段落の音声に対して音声認識を行い、現在の音声段落を再復号化し、音声認識の精度を高める。

また、分割時点の後に生成された音声認識に使用されるカスタム音声モデルは、音声モデルの頻繁な更新を避け、演算の負担を低減させる。

さらに、分割時点の後に、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得することは、以下を含む。

Ｇ１：テキスト内容と音声認識結果との間のテキスト類似度を決定する。
具体的には、現在の音声段落に対応する共有テキストは複数の端末から得られ、共有テキストにおけるテキスト内容及び音声認識結果に対して、ある端末から送信されたテキスト内容及び送信された音声認識結果の間のテキスト類似度を計算する。

Ｇ２：テキスト類似度及び類似度閾値に基づいて、テキスト類似度が類似度閾値より低いテキスト内容をフィルタリングする。
具体的には、類似度閾値より小さいテキスト類似度に対応するテキスト内容を削除し、テキスト類似度が類似度閾値以上のテキスト内容を保持し、共有テキストにおけるテキスト内容をフィルタリングする。

特に、異なる端末のテキスト内容の間のテキスト類似度を利用してテキスト内容をフィルタリングしてもよい。図８を参照し、図８は本発明の実施例四に係るテキスト内容のフィルタリングのフローチャートである。以下、第１の端末、第２の端末（各端末のうち、第１の端末以外の他の端末）を例として説明する。

Ｓ８０１：第１の端末と第２の端末のテキスト内容の間のテキスト類似度を第１のテキスト類似度として取得する。
例えば、第１の端末（Ｙ１）、第２の端末（仮に２個で、それぞれＹ２、Ｙ３とする）から送信されたテキスト内容について、それぞれＹ１とＹ２及びＹ３のテキスト内容の間のテキスト類似度Ｘ１、Ｘ２を計算し、即ちＹ１の第１のテキスト類似度をＸ１、Ｘ２とする。

Ｓ８０２：第１の端末の第１のテキスト類似度が第１の予め設定された類似度閾値より大きい数量を取得する。
具体的には、第１の予め設定された類似度閾値に基づいて第１の端末の第１のテキスト類似度が第１の予め設定された類似度閾値より大きい数量を決定し、第１の予め設定された類似度閾値の具体的な数値は実際の状況に応じて設定することができる。Ｙ１を例にとると、仮にＸ１、Ｘ２が第１の予め設定された類似度閾値より大きいとすると、Ｙ１の数量が２である。

Ｓ８０３：第１の端末から送信されたテキスト内容と第１の端末から送信された音声認識結果との間のテキスト類似度を第２のテキスト類似度として取得する。
具体的には、Ｙ１を例にとると、Ｙ１のテキスト内容とＹ１の音声認識結果との間のテキスト類似度を計算し、第２のテキスト類似度とする。

Ｓ８０４：数量及び第２のテキスト類似度に基づいて第１の端末から送信された共有テキストをフィルタリングする。
具体的には、第１の端末に対応する数量が予め設定された数値より小さく、かつその第２のテキスト類似度が第２の予め設定された類似度閾値より小さい場合、第１の端末のテキスト内容を無効情報とし、当該テキスト内容を削除する。逆に、数量が予め設定された数値以上、又は、第２のテキスト類似度が第２の予め設定された類似度閾値以上の場合、第１の端末から送信されたテキスト内容を関連情報とし、当該テキスト内容を保持する。数量が予め設定された数値以上、かつ、第２のテキスト類似度が第２の予め設定された類似度閾値以上である場合、第１の端末から送信されたテキスト内容を関連情報として保持することが容易に想到される。

さらに、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行することは、段落集合における共有テキストを利用してカスタム言語モデルを決定した後、カスタム言語モデル、予め設定された音響モデル、予め設定された辞書モデルに基づいて第１の復号化ネットワークを生成し、予め設定された言語モデル、予め設定された音響モデル、
予め設定された辞書モデルに基づいて第２の復号化ネットワークを生成し、既存の直列復号化解決策を用いて復号化ネットワークを生成することを含む。つまり、「開始」及び「終了」の２つの特殊ノードを導入し、第１の復号化ネットワーク及び第２の復号化ネットワークを接続し、任意の箇所で得点を勝負することによって、第１の復号化ネットワークが小さな工夫で第２の復号化ネットワークに組み込み、共同復号化を実現し、より高い音声認識の精度を得る。第１の復号化ネットワーク及び第２の復号化ネットワークは、ＷＦＳＴなど復号化ネットワークであってもよい。本実施例では、現在の音声段落認識が終了した後に、現在の段落集合を取得し、現在の段落集合から得られた復号化ネットワークを用いて次の音声段落に対して音声認識を行い、復号化ネットワークと予め設定されたシーンの関係性がより高いため、音声認識の精度を効果的に高める。

さらに、段落集合における共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得することは、以下を含む。

Ｈ１：段落集合における共有テキストに基づいて初期言語モデルを取得する。
具体的には、段落集合における共有テキストに基づいて、既存の言語モデル生成方法を用いて対応する初期言語モデルを生成し、初期言語モデルと予め設定されたシーンの関係性がより高くなる。Ｎ－ｇｒａｍ言語モデルを例にとると、段落集合における共有テキストを用いてＮ－ｇｒａｍ言語モデルを訓練して初期言語モデルを取得する。

Ｈ２：初期言語モデル及び予め設定された言語モデルに基づいて確率補間処理を行い、カスタム言語モデルを取得する。
具体的には、第１の復号化ネットワーク内のパスの得点と第２の復号化ネットワークのパスの得点を比較するよう、初期言語モデルのＮ－ｇｒａｍ確率を予め設定された言語モデルのＮ－ｇｒａｍ確率で補間する必要があり、また初期言語モデルのＮ－ｇｒａｍの規模を保持するために、初期言語モデルに出現するＮ－ｇｒａｍだけに対して確率の補間を行う。３階層の言語モデルを例にとると、
Pnew(wx|wx-2wx-1)=αPn(wx|wx-2wx-1)+αβPn-1(wx|wx-2wx-1)+αβ2Pn-2(wx|wx-2wx-1)+…+αβn-1Pl(wx|wx-2wx-1)+(1-α-αβ-αβ2-…αβn-1)Pb(wx|wx-2wx-1) (wx|wx-2wx-1∈共有テキスト）
このうち、Ｐｂは予め設定された言語モデルのＮ－ｇｒａｍ確率であり、Ｐｉ（ｉ＝１…ｎ）は第ｉの段落集合を用いて生成した初期言語モデルのＮ－ｇｒａｍ確率であり、Ｐｎｅｗは補間後の初期言語モデル（即ちカスタム言語モデル）のＮ－ｇｒａｍ確率であり、αは補間係数、βはペナルティ係数である。このような補間方法により、Ｎ－ｇｒａｍの規模に変化がなく、計算量も少ない。

さらに、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行することは、以下を含む。

図４を参照し、Ｔ_{０－ｂｅｇｉｎ}からＴ_{０－ｅｎｄ}までの音声段落を例にとると、Ｔ_{０－ｂｅｇｉｎ}からＴ_{０－ｅｎｄ}までの対応する共有テキストがカスタム言語モデルを取得し後、カスタム言語モデルを用いてＴ_{０－ｂｅｇｉｎ}からＴ_{０－ｅｎｄ}までの音声の候補音声認識結果を再評価し、つまりＴ_{０－ｂｅｇｉｎ}からＴ_{０－ｅｎｄ}までの音声に対応する候補音声認識結果に対して、カスタム言語モデルを用いて候補音声認識結果に対応する言語モデルの得点を計算する。言語モデルの得点及び候補音声認識結果の元の音響モデルの得点に基づいて、得点が高い候補音声認識結果をより正確的な認識結果とし、当該候補音声認識結果を用いてＴ_{０-ｂｅｇｉｎ}からＴ_{０－ｅｎｄ}までの音声の元の音声認識結果
を修正し、Ｔ_{０-ｂｅｇｉｎ}からＴ_{０-ｅｎｄ}までの音声の最終的な音声認識結果を取得し、再評価により、Ｔ_{０-ｂｅｇｉｎ}からＴ_{０-ｅｎｄ}までの音声の認識精度を高める。

実施例三と実施例四を組み合わせ、即時に有効となるキーワード、再評価及び復号化ネットワークを互いに組み合わせると、音声認識の精度が顕著かつ適時に高められる。

実施例五
本出願の実施例五は、装置の実施例を提供し、図９を参照し、図９は音声認識装置を提供し、音声認識装置は、以下を含む。

予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定する取得ユニット９０１。
上記の取得ユニット９０１の具体的な実施形態は、上記の実施例二の説明を参照できるので、ここでは省略する。

共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する認識ユニット９０２。

さらに、認識ユニット９０２は、以下を含む。
共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、キーワードに基づいてホットワードリストを更新して新しいホットワードリストを取得するキーワード取得モジュール；
カスタム言語モデル及び新しいホットワードリストにより音声認識を実行する認識モジュール。

上記の認識ユニット９０２の具体的な実施形態は、上記の実施例三、実施例四の説明を参照できるので、ここでは省略する。

本発明の実施例では、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定し、共有テキストに基づいて予め設定されたシーンのカスタム言語モデル及びキーワードを取得し、キーワードに基づいて予め設定されたシーンのホットワードリストを更新して新しいホットワードリストを取得し、カスタム言語モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行する。

したがって、本発明の実施例の技術案は、予め設定されたシーンにおける端末を用いて予め設定されたシーンのテキスト内容及びテキスト時間情報を取得し、予め設定されたシーンの共有テキストを決定し、そのため共有テキストに基づいてカスタム言語モデルを取得し、ホットワードリストを更新し、新たに取得されたホットワードリスト及びカスタム言語モデルと予め設定されたシーンとの関係性がより高いので、カスタム言語モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行すると、音声認識の精度が効果的に高められる。

選択肢として、取得ユニット９０１は、以下を含む。
予め設定されたシーンの音声を収集して認識し、センテンステキストとセンテンス時間情報とを含む音声認識結果を取得する結果取得モジュール。
テキスト時間情報及びセンテンス時間情報に基づいてマッチングを行い、センテンス時間情報にマッチングする場合、テキスト時間情報に対応するテキスト内容を共有テキストとするマッチングモジュール。

選択肢として、キーワード取得モジュールは、以下を含む。
共有テキストに対して単語分割、分類処理を行って、フレーズ集合又はセンテンス集合を取得する第１のサブモジュール。
ホットワードリストに基づいてフレーズ集合をフィルタリングする第２のサブモジュール。
フレーズの単語頻度及び単語頻度の閾値に基づいてキーワードを決定し、単語頻度は、フレーズ集合又はセンテンス集合におけるフレーズの出現回数である第３のサブモジュール。

選択肢として、キーワード取得モジュールはさらに以下を含む。
キーワードの間又はキーワードとホットワードリストとの間に存在する同音異義語を決定する第４のサブモジュール。
同音異義語が存在するセンテンステキストを判定し、センテンステキストにおける同音異義語を置き換えて、単語が置き換えられた後のセンテンステキストを取得する第５のサブモジュール。
単語が置き換えられた後のセンテンステキストの音声モデルの得点に基づいて、言語モデルの得点が最も高い同音異義語を新しいホットワードリストの単語とする第６のサブモジュール。

選択肢として、音声認識装置はさらに以下を含む。
音声認識結果に対して段落分割処理を行って段落の分割時点を取得する段落分割ユニット。
分割時点後に、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する認識ユニット。

選択肢として、認識ユニットは以下を含む。
テキスト内容と音声認識結果の間のテキスト類似度を決定する類似度決定モジュール。
テキスト類似度及び類似度閾値に基づいて、テキスト類似度が類似度閾値より低い共有テキストをフィルタリングするフィルタリングモジュール。

上記装置を利用すると、音声認識の精度が高められる。このうち、音声認識装置の具体的な機能の実施形態は、上記方法の実施例の説明を参照できるので、ここでは省略する。

本出願の実施例は、上記方法の例のように電子機器の機能ユニットを区分してもよい。例えば、機能ごとに各機能ユニットを区分してもよいし、２つ以上の機能を一つの処理ユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態であってもよいし、ソフトウェア機能ユニットの形態であってもよい。説明すべき点については、本出願の実施例におけるユニットの区分は、概略的なものであり、論理機能の区分にすぎず、実際に実施される場合には、別の区分方法があってもよい。

本出願の実施例は、さらにコンピュータ記憶媒体を提供し、このうち、当該コンピュータ記憶媒体には電子データ交換のためのコンピュータプログラムが格納され、当該コンピュータプログラムは、コンピュータに、上記方法の実施例に記載される任意の方法の一部又は全部のステップを実行させ、上記のコンピュータは電子機器を含む。

本出願の実施例はさらにコンピュータプログラム製品を提供し、上記のコンピュータプログラム製品は、コンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含み、上記のコンピュータプログラムは、コンピュータに、上記方法の実施例に記載される任意の方法の一部又は全部のステップを実行させるように動作する。当該コンピュータプログラム製品はソフトウェアインストールパッケージであってもよい。上記
のコンピュータは電子機器を含む。

説明すべき点については、前述した各方法の実施例については、説明を簡単にするために、一連の動作の組み合わせとして説明されているが、当業者には、本出願によれば、いくつかのステップが他の順序又は同時に実行されてもよいので、本出願は、説明される動作の順序によって限定されないことが認識されるべきである。また、明細書に記載される実施例は、すべて好ましい実施例であり、関連する動作及びモジュールは必ずしも本出願に必須なものではないことも当業者には認識されるべきである。

上記の実施例では、各実施例の説明に重点が置かれており、実施例では詳細に説明されていない部分については、他の実施例の説明を参照できる。

本出願に係るいくつかの実施例では、開示される装置は他の形態により実施されてもよいことが理解されるべきである。例えば、上述した装置の実施例は単に例示的であり、上記ユニットの区分のように、論理機能の区分にすぎず、実際に実施される場合には、複数のユニット又はコンポーネントが組み合わせるか、他のシステムに統合されてもよく、又はいくつかの特徴が省略されてもよく、又は実行されなくてもよいなど、追加の区分方法が存在してもよい。また、表示又は検討されている相互の結合又は直接結合又は通信接続は、いくつかのインターフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよいし、電気的又は他の形態であってもよい。

上述の分離された構成要素として説明されたユニットは、物理的に分離されてもよいし、そうではなくてもよい。ユニットとして表示される構成要素は、物理的な構成要素であってもよいし、物理的な構成要素でなくてもよい。つまり、１つの場所に配置されてもよいし、複数のネットワーク構成要素に分散されてもよい。これらのユニットの一部又は全部は、実際の必要に応じて、本実施例の解決策の目的を達成するために選択されてもよい。

また、本出願の各実施例における各機能ユニットは、１つの処理ユニットに統合されてもよいし、各ユニットが物理的に個別に存在してもよいし、さらに２つ以上のユニットが１つのユニットに統合されてもよい。上記の統合されたユニットは、ハードウェアの形態で実現してもよいし、ソフトウェア機能ユニットの形態で実現してもよい。

上記の統合ユニットは、ソフトウェア機能ユニットの形態で実現され、独立した製品として販売又は使用される場合には、一つのコンピュータ読取可能なメモリに格納されてもよい。このような理解に基づいて、本出願の技術案が本質的に又は従来技術に貢献する部分、又は当該技術案の全部若しくは一部がソフトウェア製品の形で具現化されることができる。当該コンピュータソフトウェア製品は一つのメモリに記憶され、１台のコンピュータ装置（パーソナルコンピュータ、サーバー又はネットワーク装置など）に、本出願の各実施例における上記方法の全部又は一部のステップを実行させるよう、いくつかの命令を含む。上述したメモリは、ＵＳＢメモリ、読み取り専用メモリ（ＲＯＭ、Read-Only Memory）、ランダムアクセスメモリ（ＲＡＭ、Random Access Memory）、リムーバブルハードディスク、磁気ディスク又は光ディスクなど、プログラムコードを記憶するさまざまな媒体を含む。

当業者であれば、上記の実施例の各方法の全部又は一部のステップが、関連するハードウェアにプログラムが指示することによって達成され得ることが理解される。当該プログラムは、コンピュータの読取可能なメモリに記憶することができる。メモリには、フラッシュドライブ、読み取り専用メモリ（以下、「ＲＯＭ」という）、ランダムアクセスメモリ（以下、「ＲＡＭ」という）、磁気ディスク又は光ディスクなどを含むことができる。

以上、本出願の実施例について詳細に説明しているが、本明細書では、具体的な例を用いて本出願の原理及び実施形態について説明している。上記実施例の説明は、本出願の方法及びその核心的な考えの理解を助けるためにのみ用いられる。また、当業者にとっては、本出願の考えにより、具体的な実施形態及び応用範囲においていずれも変更点があり、上述したように、本明細書の内容は本出願に対する制限と理解すべきではない。

Claims

音声認識方法であって、
予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定することと、
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することと、を含むことを特徴とする音声認識方法。
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には、
前記共有テキストに対して単語分割・分類処理を行って、キーワードを取得し、前記キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することと、
カスタム言語モデル及び前記新しいホットワードリストにより音声認識を実行することと、
を含むことを特徴とする請求項１に記載の方法。
前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前に、前記方法は、さらに、
前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キーワードに基づいて前記予め設定されたシーンのホットワードリストを更新し、新しいホットワードリストを取得することを含む、
ことを特徴とする請求項１に記載の方法。
前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には、
前記カスタム言語モデル及び前記新しいホットワードリストを用いて前記予め設定されたシーンの音声認識を実行することを含む、
ことを特徴とする請求項３に記載の方法。
前記新しいホットワードリストの有効時点は、前記新しいホットワードリストの生成時点である、
ことを特徴とする請求項２～４のいずれか１項に記載の方法。
前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定することは、具体的には、
予め設定されたシーンの音声を収集して認識し、センテンステキストとセンテンス時間情報とを含む音声認識結果を取得することと、
前記テキスト時間情報及び前記センテンス時間情報に基づいてマッチングし、前記センテンス時間情報とマッチングする場合、前記テキスト時間情報に対応する前記テキスト内容を前記共有テキストとすることと、
を含むことを特徴とする請求項２～５のいずれか１項に記載の方法。
前記方法はさらに、前記音声認識結果を前記共有テキストとすることを含む、
ことを特徴とする請求項６に記載の方法。
前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キー
ワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することは、具体的には、
前記共有テキストに対して単語分割、分類処理を行って、フレーズ集合又はセンテンス集合を取得することと、
フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定することとを含み、
前記単語頻度は、前記フレーズ集合又は前記センテンス集合における前記フレーズの出現回数である、
ことを特徴とする請求項２～７のいずれか１項に記載の方法。
前記フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定することは、具体的には、
前記フレーズ集合における各フレーズの単語頻度を取得することと、
前記単語頻度が前記単語頻度の閾値以上であり、かつ異なる端末から送信されたフレーズを前記キーワードとすることと、
ＴＦ-IＤＦアルゴリズムを用いて、前記単語頻度が前記単語頻度の閾値より小さいフレーズから、前記キーワードを選別することと、
を含むことを特徴とする請求項８に記載の方法。
フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定する前には、さらに、
前記ホットワードリストに基づいて前記フレーズ集合をフィルタリングすることを含む、
ことを特徴とする請求項８又は９に記載の方法。
前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することは、さらに、
前記キーワードの間又は前記キーワードと前記ホットワードリストとの間に存在する同音異義語を決定することと、
前記同音異義語が存在するセンテンステキストを決定し、前記センテンステキストにおける同音異義語を置き換え、単語が置き換えられた後のセンテンステキストを取得することと、
前記単語が置き換えられた後のセンテンステキストの音声モデル得点に基づいて、言語モデルの得点が最も高い同音異義語を前記新しいホットワードリストの単語とすることと、
を含むことを特徴とする請求項２～１０のいずれか１項に記載の方法。
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前には、さらに、
音声認識結果に対して段落分割処理を行って段落の分割時点を取得し、前記分割時点の後に、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することを含む、
ことを特徴とする請求項６～１１のいずれか１項に記載の方法。
前記分割時点の後、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得することは、
前記テキスト内容と前記音声認識結果との間のテキスト類似度を決定することと、
前記テキスト類似度及び類似度閾値に基づいて、テキスト類似度が前記類似度閾値より低い前記テキスト内容をフィルタリングすることと、
を含むことを特徴とする請求項１２に記載の方法。
前記複数台の端末は、第１の端末と第２の端末を含み、前記分割時点の後に、前記方法は、さらに、
前記第１の端末と前記第２の端末のテキスト内容の間のテキスト類似度を第１のテキスト類似度として取得することと、
前記第１の端末の第１のテキスト類似度が第１の予め設定された類似度閾値より大きい数量を取得することと、
前記第１の端末から送信されたテキスト内容と前記第１の端末から送信された音声認識結果との間のテキスト類似度を第２のテキスト類似度として取得することと、
前記数量及び前記第２のテキスト類似度に基づいて前記第１の端末から送信された共有テキストをフィルタリングすることと、
を含むことを特徴とする請求項１２に記載の方法。
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得することは、
現在の音声段落認識が終了した後に得られた段落集合における共有テキストに基づいて初期言語モデルを取得することと、
初期言語モデル及び予め設定された言語モデルに基づいて確率補間処理を行い、カスタム言語モデルを取得することと、
を含むことを特徴とする請求項１～１４のいずれか１項に記載の方法。
前記テキスト内容は、ユーザーが前記端末で作成した、前記予め設定されたシーンに関する内容であり、
前記テキスト内容は、ユーザーが前記予め設定されたシーンに基づいて作成したメモ、ユーザーが前記予め設定されたシーンに関する電子資料に作成したマーク、ユーザーがユーザースマート端末を使って撮影した文字情報を含む写真のいずれか一つを含む、
ことを特徴とする請求項１～１５のいずれか１項に記載の方法。
音声認識装置であって、
予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定する取得ユニットと、
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する認識ユニットと、
を含むことを特徴とする音声認識装置。
コンピュータ記憶媒体であって、
プロセッサによって実行される時に、請求項１～１６のいずれか１項に記載の音声認識方法を実行するプログラム命令を含むコンピュータプログラムを格納する、
ことを特徴とするコンピュータ記憶媒体。
コンピュータプログラム製品であって、
請求項１～１６のいずれか１項に記載のステップの一部又は全部をコンピュータに実行させるように動作するコンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含む、
ことを特徴とするコンピュータプログラム製品。