JP2023504796A - 音声認識方法及び関連製品 - Google Patents

音声認識方法及び関連製品 Download PDF

Info

Publication number
JP2023504796A
JP2023504796A JP2022531437A JP2022531437A JP2023504796A JP 2023504796 A JP2023504796 A JP 2023504796A JP 2022531437 A JP2022531437 A JP 2022531437A JP 2022531437 A JP2022531437 A JP 2022531437A JP 2023504796 A JP2023504796 A JP 2023504796A
Authority
JP
Japan
Prior art keywords
text
language model
preset scene
speech recognition
shared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022531437A
Other languages
English (en)
Other versions
JP7413533B2 (ja
Inventor
ワン,ゲンシュン
ガオ,ジエンチン
ワン,チグォ
Original Assignee
アイフライテック カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイフライテック カンパニー,リミテッド filed Critical アイフライテック カンパニー,リミテッド
Publication of JP2023504796A publication Critical patent/JP2023504796A/ja
Application granted granted Critical
Publication of JP7413533B2 publication Critical patent/JP7413533B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、音声認識方法及び関連製品を開示し、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定すること(S101)と、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行すること(S102)とを含む。予め設定されたシーンにおける端末を用いて予め設定されたシーンのテキスト内容及びテキスト時間情報を取得し、予め設定されたシーンの共有テキストを決定することにより、共有テキストに基づいてカスタム言語モデルを取得することができ、カスタム言語モデルと予め設定されたシーンの関係性がより高いため、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行すると音声認識の精度が効果的に高められる。

Description

相互参照
本発明は、2019年12月28日に提出した出願番号CN201911389673.X、発明名称「音声認識方法及び関連製品」である先願の優先権を主張し、その先願の内容はここで参照として本明細書に引用される。
本発明は、音声認識技術分野に関し、特に音声認識方法及び関連製品に関する。
音声認識技術は、機器が認識及び理解の過程で音声信号を対応するテキスト又は命令に変換する技術である。
従来技術では、会議、講演、インタビュー又は授業などの場面について、その場で音声認識を行う前に、当該場面の関連するテキスト資料又はキーワードなどを事前に取得し、音声認識モデルの更新を行う必要があり、更新後の音声認識モデルを用いて音声認識を行うことで、その場面の領域認識効果を高める。ただし、この解決手段は、関連シーンの資料を入手し、人の介入が必要であるため、使用シーンには制限がある。また使用シーンでテーマ変更など、突然又は一時的な変更が生じる場合、従来の音声認識モデルが認識効果を最適化できないことで、音声認識精度が低下し、ユーザーの全体的な体験に影響を与える。
本発明の実施例は、音声認識の精度が高められる音声認識方法及び関連製品を提供する。
第1の態様において、本発明の実施例は音声認識方法を提供し、当該音声認識方法は、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定することと、
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することとを含む。
一実施形態において、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には、
前記共有テキストに対して単語分割・分類処理を行いキーワードを取得し、前記キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することと、
カスタム言語モデル及び前記新しいホットワードリストにより音声認識を実行することとを含む。
一実施形態において、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前に、前記方法は、さらに
前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キーワードに基づいて前記予め設定されたシーンのホットワードリストを更新し、新しいホットワードリストを取得することを含む。
一実施形態において、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には、
前記カスタム言語モデル及び前記新しいホットワードリストを用いて前記予め設定されたシーンの音声認識を実行することを含む。
一実施形態において、前記新しいホットワードリストの有効時点は、前記新しいホットワードリストの生成時点である。
一実施形態において、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定することは、具体的には、
予め設定されたシーンの音声を収集して認識し、センテンステキストとセンテンス時間情報とを含む音声認識結果を取得することと、
前記テキスト時間情報及び前記センテンス時間情報に基づいてマッチングし、前記センテンス時間情報と一致する場合、前記テキスト時間情報に対応する前記テキスト内容を前記共有テキストとすることとを含む。
一実施形態において、前記方法は、さらに前記音声認識結果を前記共有テキストとすることを含む。
一実施形態において、前記共有テキストに対して単語分割・分類処理を行いキーワードを取得し、前記キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することは、具体的には、
前記共有テキストに対して単語分割、分類処理を行い、フレーズ集合又はセンテンス集合を取得することと、
フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定することとを含み、前記単語頻度は、前記フレーズ集合又は前記センテンス集合における前記フレーズの出現回数である。
一実施形態において、前記フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定することは、具体的には、
前記フレーズ集合における各フレーズの単語頻度を取得することと、
前記単語頻度が前記単語頻度の閾値以上、かつ異なる端末から送信されたフレーズを前記キーワードとすることと、
TF-IDFアルゴリズムを用いて、前記単語頻度が前記単語頻度の閾値より小さいフレーズから、前記キーワードを選別することとを含む。
一実施形態において、フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定する前には、さらに
前記ホットワードリストに基づいて前記フレーズ集合をフィルタリングすることを含む。
一実施形態において、前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キーワードに基づいてホットワードリストを更新して、新しいホットワードリストを取得することは、さらに
前記キーワードの間又は前記キーワードと前記ホットワードリストとの間に存在する同音異義語を決定することと、
前記同音異義語を有する前記センテンステキストを決定し、前記センテンステキストにおける同音異義語を置き換え、置き換えた後のセンテンステキストを取得することと、
前記置き換えた後のセンテンステキストの音声モデル得点に基づいて、言語モデル得点
が最も高い同音異義語を前記新しいホットワードリストの単語とすることとを含む。
一実施形態において、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前には、さらに
前記音声認識結果に対して段落分割処理を行って段落の分割時点を取得し、前記分割時点の後に、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することを含む。
一実施形態において、前記分割時点の後、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得することは、
前記テキスト内容と前記音声認識結果との間のテキスト類似度を決定することと、
前記テキスト類似度及び類似度閾値に基づいて、テキスト類似度が前記類似度閾値より低い前記テキスト内容をフィルタリングすることとを含む。
一実施形態において、前記複数台の端末は、第1の端末と第2の端末を含み、前記分割時点の後に、前記方法は、さらに
前記第1の端末と前記第2の端末のテキスト内容の間のテキスト類似度を第1のテキスト類似度として取得することと、
第1のテキスト類似度が第1の類似度の設定閾値より大きい前記第1の端末の数量を取得することと、
前記第1の端末から送信されたテキスト内容と前記第1の端末から送信された音声認識結果との間のテキスト類似度を第2のテキスト類似度として取得することと、
前記数量及び前記第2のテキスト類似度に基づいて前記第1の端末から送信された共有テキストをフィルタリングすることとを含む。
一実施形態において、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得することは、
現在の音声段落認識が終了した後に得られた段落集合における共有テキストに基づいて初期言語モデルを取得することと、
初期言語モデル及び予め設定された言語モデルに基づいて確率補間処理を行い、カスタム言語モデルを取得することとを含む。
一実施形態において、前記テキスト内容は、前記予め設定されたシーンに関してユーザーが前記端末で作成した内容であり、
前記テキスト内容は、前記予め設定されたシーンに基づいてユーザーが作成したメモ、前記予め設定されたシーンに関する電子資料にユーザーが作成したマーク、ユーザースマート端末をユーザーが使って撮影した文字情報を含む写真の少なくとも一つを含む。
第二の態様において、本発明の実施例は、音声認識装置を提供し、当該音声認識装置は、
予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定する取得ユニットと、
前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する認識ユニットとを含む。
第三の態様において、本発明の実施例は、コンピュータ記憶媒体を提供し、前記コンピ
ュータ記憶媒体にはコンピュータプログラムが格納され、前記コンピュータプログラムにはプログラム命令を含み、前記プログラム命令は、プロセッサによって実行される時に、本出願の実施例の第一の態様に記載されるステップの一部又は全部を実行する。
第四の態様において、本出願の実施例は、コンピュータプログラム製品を提供し、上記コンピュータプログラム製品は、コンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含み、上記コンピュータプログラムは、本出願の実施例の第一の態様に記載されるステップの一部又は全部をコンピュータに実行させるように動作する。当該コンピュータプログラム製品はソフトウェアインストールパッケージであってもよい。
本発明の実施例では、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定し、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する。
したがって、本発明の実施例の技術案は、予め設定されたシーンにおける端末を用いて予め設定されたシーンのテキスト内容及びテキスト時間情報を取得し、予め設定されたシーンの共有テキストを決定することにより、共有テキストに基づいてカスタム言語モデルを取得することができ、カスタム言語モデルと予め設定されたシーンとの関係性がより高いため、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行すると、音声認識の精度が効果的に高められる。
本発明の実施例の技術案をより明確に説明するために、以下、実施例の説明に必要な図面について簡単に説明する。以下説明される図面は本発明のいくつかの実施例であり、当業者にとっては、創造的な労力を要することなく、これらの図面から他の図面を得ることができることは自明である。
本発明の実施例一に係る音声認識方法のフローチャートである。 本発明の実施例一に係るステップ102のフローチャートである。 本発明の実施例二に係るステップ101のフローチャートである。 本発明の実施例二に係る共有テキストの取得時間を示す図である。 本発明の実施例二に係る共有テキストの取得時間帯を示す図である。 本発明の実施例三に係るステップS201のフローチャートである。 本発明の実施例三に係る共有テキスト集合を示す図である。 本発明の実施例四に係るテキスト内容のフィルタリングのフローチャートである。 本発明の実施例五に係る音声認識装置の構造を示す図である。
以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。
本出願の明細書、特許請求の範囲及び図面における「第1」、「第2」などの用語は、異なる対象を区別するためのものであり、特定の順序を説明するためのものではないことが理解されるべきである。また、用語の「含む」及び「有する」及びそれらの任意の変形は、排他的でないものをカバーすることを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、リストされているステップ又
はユニットに限定されず、選択肢として、リストされていないステップ又はユニット、又は選択肢として、これらのプロセス、方法、製品又は装置に固有の他のステップ又はユニットをさらに含む。
本発明で言及される「実施例」は、実施例を参照して説明される特定の特徴、構造又は特性が、本発明の少なくとも1つの実施例に含まれることができることを意味する。本明細書の任意の部分に当該フレーズが現れることは、必ずしもすべてが同じ実施例を指すわけではなく、また、他の実施例と相互に排他的である独立した又は代替的な実施例を指すわけでもない。本発明に記載されている実施例が他の実施例と組み合わせてもよいことは、当業者にとっては明示的にも暗黙的にも理解されるべきである。
本明細書の予め設定されたシーンとは、音声データを文字データに変換する音声認識シーン(講演、研修、会議、インタビュー、授業など)を指す。なお、端末とは、携帯電話、タブレットPC、ノートパソコン、ボイスレコーダー、スマートオフィスノートなどの端末装置を含み、ネットワーク通信能力と記録能力(撮影、テキスト編集の機能など)を備えるユーザースマート端末を指す。
実施例一
図1を参照し、図1は、音声認識方法を提供し、当該方法は、電子機器で実行され、当該電子機器は、汎用コンピュータ、サーバーなどであってもよく、当然、実際の応用でデータ処理センター、クラウドプラットフォームなどであってもよく、本出願は上記の電子機器の具体的な実装形態を限定するものではない。図1に示すよう、当該方法は次のステップを含む。
S101:予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定する。
具体的には、複数台の端末の利用者は同じ予め設定されたシーンにあり、例えば、多くの利用者は同じ会議に参加する。テキスト時間情報は、上記のテキスト内容の生成時間である。S101の具体的な実施形態は、実施例二の説明を参照できるので、ここでは省略する。
S102:共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する。
上記のS102の具体的な実施形態は、実施例四の説明を参照できるので、ここでは省略する。
さらに、図2を参照し、図2は、本発明の実施例一に係るステップ102のフローチャートであり、S102は以下を含む。
S201:共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得する。S202:カスタム言語モデル及び新しいホットワードリストにより音声認識を実行する。
具体的には、S201、S202の具体的な実施形態は、実施例三の説明を参照できるので、ここでは省略する。
選択肢として、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前に、前記方法は、さらに
前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得することと、前記キーワードに基づいて前記予め設定されたシーンのホットワードリストを更新し、新しいホットワードリストを取得することとを含む。
選択肢として、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には前記カスタム言語モデル及び前記新しいホットワードリストを用いて前記予め設定されたシーンの音声認識を実行することを含む。
具体的には、キーワードの取得方法、新しいホットワードリストの取得方法、カスタム音声モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行する方法は、下記の実施例の説明を参照できるので、ここでは省略する。
選択肢として、前記新しいホットワードリストの有効時点は、前記新しいホットワードリストの生成時点であり、ホットワードが速やかに有効になるので、音声認識の精度が高められる。
本発明の実施例では、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定し、共有テキストに基づいて予め設定されたシーンのカスタム言語モデル及びキーワードを取得し、キーワードに基づいて予め設定されたシーンのホットワードリストを更新し、新しいホットワードリストを取得し、カスタム言語モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行する。したがって、本発明の実施例の技術案は、予め設定されたシーンにおける端末を用いて予め設定されたシーンのテキスト内容及びテキスト時間情報を取得し、予め設定されたシーンの共有テキストを決定し、したがって、共有テキストに基づいてカスタム言語モデルを取得し、ホットワードリストを更新し、新たに取得したホットワードリスト及びカスタム言語モデルと予め設定されたシーンとの関係性がより高いので、カスタム言語モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行すると、音声認識の精度が効果的に高められる。
実施例二
実施例一に基づいて実施例二を提供し、上記のテキスト内容とは、ユーザーが端末で作成した予め設定されたシーンに関する内容を指し、ユーザーが予め設定されたシーンに基づいて作成したメモ、ユーザーが予め設定されたシーンに関する電子資料に作成したマーク、ユーザーがユーザースマート端末を使って撮影した文字情報を含む写真などを含む。このうち、メモとしては、用紙や講義ノートなどの紙媒体を用いて手書きしたメモ、又は、電子メモ帳、ワード、PDF、パワーポイントなどの電子記録媒体を用いて手動で入力したメモなどが挙げられる。なお、予め設定されたシーンに関する電子資料は、ユーザースマート端末で受信され、又はローカルで生成された音声認識結果のドキュメント、音声認識シーンの電子シーン資料(講演、研修、会議などのパワーポイント、PDF、ワードなどの電子資料)を含む。予め設定されたシーンに関する電子資料のマークは、ユーザーが音声認識結果のドキュメント又は電子シーン資料の内容変更、重要な箇所を目立たせるためにつけたマークなどを含む。
さらに、端末でテキスト内容及び対応するテキスト時間情報を決定できる。例えば、
A:ユーザーが入力ツールを利用して手動で入力したメモの場合、当該メモに基づいて対応するテキスト内容を直接決定でき、メモ文字の入力時間を当該テキスト内容の生成時間、即ちテキスト時間情報とする。
B:ユーザーがユーザースマート端末で作成した手書きメモの場合、手書き認識原理に基づいて手書きメモを処理することによって対応するテキスト内容を取得でき、手書き時間
を当該テキスト内容の生成時間、即ちテキスト時間情報とする。
C:ユーザーが予め設定されたシーンに関する電子資料に作成したマークの場合、光学的文字認識原理に基づいて予め設定されたシーンに関する電子資料を処理することによって、マークに対応するテキスト内容を取得でき、マークの操作時間、即ちマーク時間を当該テキスト内容の生成時間、即ちテキスト時間情報とする。
D:ユーザーがユーザースマート端末を用いて撮影した文字情報を含む写真の場合、光学的文字認識原理に基づいて写真を処理することによって、写真におけるテキスト内容を認識し、写真の撮影時間を当該テキスト内容の生成時間、即ちテキスト時間情報とする。
図3を参照し、図3は、本発明の実施例二に係るステップ101のフローチャートであり、S101は、具体的には以下を含む。
S301:予め設定されたシーンの音声を収集して認識し、センテンステキストとセンテンス時間情報とを含む音声認識結果を取得する。
具体的には、予め設定されたシーンにおける端末のリアルタイム音声認識アプリケーションを用いて音声認識を行い、音声認識結果を取得する。センテンスのテキストは音声節の認識テキストであり、センテンス時間情報は音声節の認識終了時間(即ち音声認識と同期に生成する端点検出情報の時点に基づいて決定した時間境界)である。
S302:テキスト時間情報及びセンテンス時間情報に基づいてマッチングを行い、センテンス時間情報にマッチングする場合、テキスト時間情報に対応するテキスト内容を共有テキストとする。
具体的には、端末から送信されたテキスト内容について、テキスト内容のテキスト時間情報は、音声節の音声認識開始時間から音声節の認識終了時間までの期間にある場合、テキスト時間情報とセンテンス時間情報がマッチングするとみなし、テキスト時間情報に対応するテキスト内容を共有テキストとする。本発明の実施例では、また端末で生成された音声認識結果を共有テキストとし、S302の後に取得した共有テキストは他の端末から送信されたテキスト内容であるため、本実施例では本端末で認識した音声認識結果を共有テキストとし、より正確的な共有テキストを取得することで、その後に生成したカスタム言語モデルの精度を高め、よって言語認識の精度が高められる。
以下、共有テキストの取得過程について説明する。
予め設定されたシーンにおける複数の端末について、既存のローカルエリアネットワークを用いて複数の端末間の相互通信を実現し、予め設定されたシーンにおける複数の端末の相互通信のための経路を構築することができる。複数の端末うち、任意の端末の利用者が端末のリアルタイム音声認識アプリケーションを使用してテキスト共有請求の同期情報を当該ローカルエリアネットワーク内のすべての端末に送信する。同期情報を受信した端末の利用者が当該テキスト共有請求に応答し、テキスト共有に参加するか否かを確認する。テキスト共有に参加する複数の端末からグループを構成し、実際の音声認識シーンにおいて、端末の時間が利用者の人為的な妨害(タイムゾーンの設定又は時間情報の手動調整など)を受けることを考慮し、同じグループの端末の時間を統一し、その後に送信するテキスト内容及び音声認識結果の時間的な整合性を確保する必要がある。グループにおける任意の端末を時間サーバーとして選択し、当該端末の時間を基準時間とし、その後にその他の端末では、当該時間を基準に、ネットワーク・タイム・プロトコル(Netwоrk Time Prоtоcоl、NTP)を用いて時間の同期を行い、その後に送信するテキスト内容及び音声認識結果の時間的な整合性を保証する。
時間情報の同期によりすべての端末の時間情報の整合性が確保されたため、リアルタイム音声認識結果を生成する同時に(各センテンスの結果には時間情報を有する)、既存の段落分割ポリシーに合わせてリアルタイムな段落分割を行い、現在の段落の開始時間T
-begin及び終了時間Tn-endを共有テキストの時間帯(即ち共有テキストの取得時間帯)として確認する。即ち図4に示すように、図4は本発明の実施例二に係る共有テキストの取得時間を示す図である。現在の段落の開始時間Tn-beginはテキスト変換の開始時点(T0-begin)又は前の段落分割の終了時点(Tn-1-begin)である。終了時間Tn-endは、リアルタイムな段落分割の段落終了節に対応する時点である。決定した現在の段落の終了時間Tn-endは共有テキストで決定したカスタム言語モデルが有効となる時点であり、カスタム言語モデルの決定ポリシーについて実施例四を参照する。このうち、終了時間帯Tn-endにおいて、選別と整理により取得された共有テキストを用いてカスタム言語モデルを更新し、更新したカスタム言語モデルを利用して当該段落の2回認識結果を再評価し(rescоre)、次の段落のリアルタイムな復号化を行う。
また、音声認識結果と同期に生成した端点検出情報から決定した節の情報に基づいて、当該時間帯内のテキスト内容の取得回数及びホットワードの有効時間を決定する。具体的には、図5に示すように、図5は本発明の実施例二に係る共有テキストの取得時間帯を示す図である。Tn-beginを現在の共有テキストの取得時間帯の開始時刻とし、Tn-endを現在の共有テキストの取得時間帯の終了時刻とする。なお、当該音声段落内のm個の音声節について、音声認識と同期に生成した端点検出の時点に基づいて時間境界を決定する、各節の後(例えば、Tn-1,Tn-2,Tn-3…Tn-m)はいずれも1回の共有テキストの共有を行い、つまり取得されたテキスト内容のテキスト時間情報は現在の節内にあり、かつ前の時点内にない場合、当該テキスト内容を取得することができる。取得された共有テキストから新しいホットワード(即ちキーワード、キーワードの確認方法について実施例三を参照する)を取得できる場合、例えばTn-2で新しいホットワードを取得したことを確認すれば、当該ホットワードを直ちにホットワードリストに追加され、つまりTn-2から当該ホットワードが有効になる。
実施例三
図6を参照し、図6は本発明の実施例三に係るステップS201のフローチャートであり、以下、共有テキスト集合に基づいてキーワードを取得する方法について説明し、つまりS201は具体的には以下を含む。
S601:共有テキストに対して単語分割、分類処理を行い、フレーズ集合又はセンテンス集合を取得する。
具体的には、現在の時間帯内の共有テキスト集合を構築し、実施例二で決定された共有テキスト構築用の取得時間帯に基づいて共有テキスト集合を構築し、現在の時間帯内[Tn-begin,Tn-end内]の各時刻{Tn-1,Tn-2,…,Tn-m}内に収集されたテキスト内容を対象に単語分割・分類を行い、主に単語(フレーズ)、センテンス(段落)の2種類に分かれ、フレーズ集合及びセンテンス集合を取得する。単語分割後の単語の数量が2より小さい場合、単語(フレーズ)種類に該当するとみなし、そうでない場合、センテンス(段落)種類に該当する。Tn-1及びTn-mで収集した異なる端末の間の共有テキスト集合について、図7に示すように、図7は本発明の実施例三に係る共有テキスト集合を示す図である。このうちWt1-d1-id1は、時刻t1のデバイスd1で取得された単語番号id1を表し、St1-d1-id1は、時刻t1の端末d1で取得されたセンテンス(段落)番号id1を表し、{R,…,Rn-1}は、現在の時間帯内で取得されたリアルタイムのn-1個の段落の音声認識結果を表す。
S602:ホットワードリストに基づいてフレーズ集合をフィルタリングする。
具体的には、予め設定されたシーンのホットワードリストは、予め手動で入力された単語からなることであってもよい。ホットワードリストの単語と同じであるフレーズについて、フレーズ集合から削除される。例えば、単語番号id1の単語がホットワードリストに
含まれている場合、単語(フレーズ)集合{Wta-db-idc}から削除される。
S603:フレーズの単語頻度及び単語頻度の閾値に基づいてキーワードを決定し、単語頻度は、フレーズ集合又はセンテンス集合におけるフレーズの出現回数である。
具体的には、S603は以下を含む。
E1:フレーズ集合における各フレーズの単語頻度を取得する。
具体的には、フレーズ集合又はセンテンス集合における各フレーズの出現回数を単語頻度として計算する。
E2:単語頻度が単語頻度の閾値以上、かつ異なる端末から送信されたフレーズをキーワードとする。
具体的には、単語頻度の閾値は実際の状況に応じて調整されてもよい。例えば、単語頻度の閾値を2とする。
E3:TF-IDFアルゴリズムを利用し、単語頻度が単語頻度の閾値より小さいフレーズからキーワードを選別する。
具体的には、本実施例において、単語頻度が単語頻度の閾値より小さいフレーズについて、引き続きTF-IDFアルゴリズムを利用し、キーワードを選別し、まずフレーズの統一の単語頻度を計算する。このうち、センテンス集合におけるあるフレーズの出現回数を単語頻度として計算し、当該単語頻度とセンテンス集合の合計単語数の比を当該フレーズの統一の単語頻度とする。その後、あるフレーズの逆文書頻度を計算し、逆文書頻度の計算式はlоg(予め設定されたコーパスの文章総数/(あるフレーズを含む文章総数+1))であり、予め設定されたコーパスは、予め設定されたシーンの言語モデルを訓練する時に使用される文章コーパスの集合であってもよい。その後、統一の単語頻度と逆文書頻度の積を当該フレーズの関係性得点とし、得点の閾値とフレーズの関係性得点に基づいてキーワードを選別し、得点の閾値の具体的な数値について、実際の状況に応じて設定され、関係性得点が得点の閾値以上のフレーズをキーワードとする。
注意すべき点として、ユーザーによって同一のフレーズの手書き結果が異なるので、誤字又は光学的文字認識エラーなどの場合がある。S603で決定されたキーワードは、ホットワードリストにおけるフレーズとは同音異義のフレーズであり、又はキーワードの間に同音異義のフレーズがあるため、さらに同音異義のフレーズを選別する必要があり、言語モデルの得点に基づいて同音異義のフレーズを選別し、言語モデルの得点が高い同音異義のフレーズをホットワードリストのキーワードとして確認する。具体的には、S201はさらに以下を含む。
F1:キーワードの間又はキーワードとホットワードリストとの間に存在する同音異義語を決定する。
キーワード及びホットワードリストにおけるフレーズに対して、モデリング辞書のマッピングを行うことによって、それらの中に同音異義のフレーズがあるかどうかを確認する。例えば、声母・韻母モデリングユニット又は主母音モデリングユニットにマッピングされることによって、キーワードの同音異義のフレーズを見つけることができる。あるキーワードと他のキーワード及びホットワードリストとを比較した後に、同音異義のフレーズが見つからない場合、直接に当該キーワードをホットワードリストに追加する。
F2:同音異義語があるセンテンステキストを判定し、センテンステキストにおける同音異義語を置き換えて、単語が置き換えられた後のセンテンステキストを取得する。
F3:単語が置き換えられた後のセンテンステキストの音声モデルの得点に基づいて、言語モデルの得点が最も高い同音異義語を新しいホットワードリストの単語とする。
まず、当該キーワードがセンテンス集合で出現するセンテンスを見つけて、その後に単語の置き換えによって複数のセンテンスを取得する。また複数のセンテンスの言語モデルの得点を計算し、言語モデルの得点に基づいて確認し、言語モデルの得点が高いフレーズをホットワードリストの単語として選択する。ここで、言語モデルの得点は既存の言語モデルを利用して計算されてもよい。例えば、キーワード「トマト世界一の大富豪」の同音異義のフレーズは、「西虹市世界一の大富豪」であり、それぞれ出現するセンテンス、例えば、「トマト世界一の大富豪は、沈騰、宋芸樺などの主演したコメディー映画である」及び「西虹市世界一の大富豪が2018年に公開された」を発見する。その中のキーワードを置き換え、それぞれ{「トマト世界一の大富豪は、沈騰、宋芸樺などの主演したコメデ
ィー映画である」、「西虹市世界一の大富豪は沈騰、宋芸樺などの主演したコメディー映画である」}及び{「トマト世界一の大富豪は2018年に公開された」、「西虹市世界一の大富豪は2018年に公開された」}の2つのセンテンス対を生成し、それぞれその言
語モデルの得点を比較する。2つのセンテンス対とも「西虹市世界一の大富豪」が存在するセンテンスの言語モデルの得点が高ければ、「トマト世界一の大富豪」は間違ったキーワードであり、「西虹市世界一の大富豪」は正しいキーワードであると判明し、「西虹市世界一の大富豪」をホットワードリストの単語とする。
キーワードとその同音異義のフレーズの音声モデルの得点を計算して選別することにより、言語モデルの得点が同音異義のフレーズより高いキーワードをホットワードリストに追加する。キーワードは加入された後にすぐに有効となり、言語モデルの得点が低い同音異義のフレーズを削除する。音声モデルの得点が同じである場合、キーワードを同音異義のフレーズとともにホットワードリストの単語とする。逆に、あるキーワードの言語モデルの得点が同音異義のフレーズより低い場合、当該キーワードを削除する。
同音異義のフレーズを選別することにより、正しいキーワードを判定し、音声認識の精度を保証することができる。
実施例四
実施例一及び実施例二に基づいて、実施例四を提供する。本実施例では、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する前には、さらに以下を含む。
音声認識結果に対して段落分割処理を行って段落の分割時点を取得し、分割時点の後に、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する。
具体的には、現在の音声段落認識終了を確認した後、当該音声段落に対応して取得した共有テキストに基づいて、予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて次の音声段落の音声に対して音声認識を行い、現在の音声段落を再復号化し、音声認識の精度を高める。
また、分割時点の後に生成された音声認識に使用されるカスタム音声モデルは、音声モデルの頻繁な更新を避け、演算の負担を低減させる。
さらに、分割時点の後に、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得することは、以下を含む。
G1:テキスト内容と音声認識結果との間のテキスト類似度を決定する。
具体的には、現在の音声段落に対応する共有テキストは複数の端末から得られ、共有テキストにおけるテキスト内容及び音声認識結果に対して、ある端末から送信されたテキスト内容及び送信された音声認識結果の間のテキスト類似度を計算する。
G2:テキスト類似度及び類似度閾値に基づいて、テキスト類似度が類似度閾値より低いテキスト内容をフィルタリングする。
具体的には、類似度閾値より小さいテキスト類似度に対応するテキスト内容を削除し、テキスト類似度が類似度閾値以上のテキスト内容を保持し、共有テキストにおけるテキスト内容をフィルタリングする。
特に、異なる端末のテキスト内容の間のテキスト類似度を利用してテキスト内容をフィルタリングしてもよい。図8を参照し、図8は本発明の実施例四に係るテキスト内容のフィルタリングのフローチャートである。以下、第1の端末、第2の端末(各端末のうち、第1の端末以外の他の端末)を例として説明する。
S801:第1の端末と第2の端末のテキスト内容の間のテキスト類似度を第1のテキスト類似度として取得する。
例えば、第1の端末(Y1)、第2の端末(仮に2個で、それぞれY2、Y3とする)から送信されたテキスト内容について、それぞれY1とY2及びY3のテキスト内容の間のテキスト類似度X1、X2を計算し、即ちY1の第1のテキスト類似度をX1、X2とする。
S802:第1の端末の第1のテキスト類似度が第1の予め設定された類似度閾値より大きい数量を取得する。
具体的には、第1の予め設定された類似度閾値に基づいて第1の端末の第1のテキスト類似度が第1の予め設定された類似度閾値より大きい数量を決定し、第1の予め設定された類似度閾値の具体的な数値は実際の状況に応じて設定することができる。Y1を例にとると、仮にX1、X2が第1の予め設定された類似度閾値より大きいとすると、Y1の数量が2である。
S803:第1の端末から送信されたテキスト内容と第1の端末から送信された音声認識結果との間のテキスト類似度を第2のテキスト類似度として取得する。
具体的には、Y1を例にとると、Y1のテキスト内容とY1の音声認識結果との間のテキスト類似度を計算し、第2のテキスト類似度とする。
S804:数量及び第2のテキスト類似度に基づいて第1の端末から送信された共有テキストをフィルタリングする。
具体的には、第1の端末に対応する数量が予め設定された数値より小さく、かつその第2のテキスト類似度が第2の予め設定された類似度閾値より小さい場合、第1の端末のテキスト内容を無効情報とし、当該テキスト内容を削除する。逆に、数量が予め設定された数値以上、又は、第2のテキスト類似度が第2の予め設定された類似度閾値以上の場合、第1の端末から送信されたテキスト内容を関連情報とし、当該テキスト内容を保持する。数量が予め設定された数値以上、かつ、第2のテキスト類似度が第2の予め設定された類似度閾値以上である場合、第1の端末から送信されたテキスト内容を関連情報として保持することが容易に想到される。
さらに、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行することは、段落集合における共有テキストを利用してカスタム言語モデルを決定した後、カスタム言語モデル、予め設定された音響モデル、予め設定された辞書モデルに基づいて第1の復号化ネットワークを生成し、予め設定された言語モデル、予め設定された音響モデル、
予め設定された辞書モデルに基づいて第2の復号化ネットワークを生成し、既存の直列復号化解決策を用いて復号化ネットワークを生成することを含む。つまり、「開始」及び「終了」の2つの特殊ノードを導入し、第1の復号化ネットワーク及び第2の復号化ネットワークを接続し、任意の箇所で得点を勝負することによって、第1の復号化ネットワークが小さな工夫で第2の復号化ネットワークに組み込み、共同復号化を実現し、より高い音声認識の精度を得る。第1の復号化ネットワーク及び第2の復号化ネットワークは、WFSTなど復号化ネットワークであってもよい。本実施例では、現在の音声段落認識が終了した後に、現在の段落集合を取得し、現在の段落集合から得られた復号化ネットワークを用いて次の音声段落に対して音声認識を行い、復号化ネットワークと予め設定されたシーンの関係性がより高いため、音声認識の精度を効果的に高める。
さらに、段落集合における共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得することは、以下を含む。
H1:段落集合における共有テキストに基づいて初期言語モデルを取得する。
具体的には、段落集合における共有テキストに基づいて、既存の言語モデル生成方法を用いて対応する初期言語モデルを生成し、初期言語モデルと予め設定されたシーンの関係性がより高くなる。N-gram言語モデルを例にとると、段落集合における共有テキストを用いてN-gram言語モデルを訓練して初期言語モデルを取得する。
H2:初期言語モデル及び予め設定された言語モデルに基づいて確率補間処理を行い、カスタム言語モデルを取得する。
具体的には、第1の復号化ネットワーク内のパスの得点と第2の復号化ネットワークのパスの得点を比較するよう、初期言語モデルのN-gram確率を予め設定された言語モデルのN-gram確率で補間する必要があり、また初期言語モデルのN-gramの規模を保持するために、初期言語モデルに出現するN-gramだけに対して確率の補間を行う。3階層の言語モデルを例にとると、
Pnew(wx|wx-2wx-1)=αPn(wx|wx-2wx-1)+αβPn-1(wx|wx-2wx-1)+αβ2Pn-2(wx|wx-2wx-1)+…+αβn-1Pl(wx|wx-2wx-1)+(1-α-αβ-αβ2-…αβn-1)Pb(wx|wx-2wx-1) (wx|wx-2wx-1∈共有テキスト)
このうち、Pbは予め設定された言語モデルのN-gram確率であり、Pi(i=1…n)は第iの段落集合を用いて生成した初期言語モデルのN-gram確率であり、Pnewは補間後の初期言語モデル(即ちカスタム言語モデル)のN-gram確率であり、αは補間係数、βはペナルティ係数である。このような補間方法により、N-gramの規模に変化がなく、計算量も少ない。
さらに、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行することは、以下を含む。
図4を参照し、T0-beginからT0-endまでの音声段落を例にとると、T0-beginからT0-endまでの対応する共有テキストがカスタム言語モデルを取得し後、カスタム言語モデルを用いてT0-beginからT0-endまでの音声の候補音声認識結果を再評価し、つまりT0-beginからT0-endまでの音声に対応する候補音声認識結果に対して、カスタム言語モデルを用いて候補音声認識結果に対応する言語モデルの得点を計算する。言語モデルの得点及び候補音声認識結果の元の音響モデルの得点に基づいて、得点が高い候補音声認識結果をより正確的な認識結果とし、当該候補音声認識結果を用いてT0-beginからT0-endまでの音声の元の音声認識結果
を修正し、T0-beginからT0-endまでの音声の最終的な音声認識結果を取得し、再評価により、T0-beginからT0-endまでの音声の認識精度を高める。
実施例三と実施例四を組み合わせ、即時に有効となるキーワード、再評価及び復号化ネットワークを互いに組み合わせると、音声認識の精度が顕著かつ適時に高められる。
実施例五
本出願の実施例五は、装置の実施例を提供し、図9を参照し、図9は音声認識装置を提供し、音声認識装置は、以下を含む。
予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定する取得ユニット901。
上記の取得ユニット901の具体的な実施形態は、上記の実施例二の説明を参照できるので、ここでは省略する。
共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する認識ユニット902。
さらに、認識ユニット902は、以下を含む。
共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、キーワードに基づいてホットワードリストを更新して新しいホットワードリストを取得するキーワード取得モジュール;
カスタム言語モデル及び新しいホットワードリストにより音声認識を実行する認識モジュール。
上記の認識ユニット902の具体的な実施形態は、上記の実施例三、実施例四の説明を参照できるので、ここでは省略する。
本発明の実施例では、予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、テキスト内容及びテキスト時間情報に基づいて予め設定されたシーンの共有テキストを決定し、共有テキストに基づいて予め設定されたシーンのカスタム言語モデル及びキーワードを取得し、キーワードに基づいて予め設定されたシーンのホットワードリストを更新して新しいホットワードリストを取得し、カスタム言語モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行する。
したがって、本発明の実施例の技術案は、予め設定されたシーンにおける端末を用いて予め設定されたシーンのテキスト内容及びテキスト時間情報を取得し、予め設定されたシーンの共有テキストを決定し、そのため共有テキストに基づいてカスタム言語モデルを取得し、ホットワードリストを更新し、新たに取得されたホットワードリスト及びカスタム言語モデルと予め設定されたシーンとの関係性がより高いので、カスタム言語モデル及び新しいホットワードリストを用いて予め設定されたシーンの音声認識を実行すると、音声認識の精度が効果的に高められる。
選択肢として、取得ユニット901は、以下を含む。
予め設定されたシーンの音声を収集して認識し、センテンステキストとセンテンス時間情報とを含む音声認識結果を取得する結果取得モジュール。
テキスト時間情報及びセンテンス時間情報に基づいてマッチングを行い、センテンス時間情報にマッチングする場合、テキスト時間情報に対応するテキスト内容を共有テキストとするマッチングモジュール。
選択肢として、キーワード取得モジュールは、以下を含む。
共有テキストに対して単語分割、分類処理を行って、フレーズ集合又はセンテンス集合を取得する第1のサブモジュール。
ホットワードリストに基づいてフレーズ集合をフィルタリングする第2のサブモジュール。
フレーズの単語頻度及び単語頻度の閾値に基づいてキーワードを決定し、単語頻度は、フレーズ集合又はセンテンス集合におけるフレーズの出現回数である第3のサブモジュール。
選択肢として、キーワード取得モジュールはさらに以下を含む。
キーワードの間又はキーワードとホットワードリストとの間に存在する同音異義語を決定する第4のサブモジュール。
同音異義語が存在するセンテンステキストを判定し、センテンステキストにおける同音異義語を置き換えて、単語が置き換えられた後のセンテンステキストを取得する第5のサブモジュール。
単語が置き換えられた後のセンテンステキストの音声モデルの得点に基づいて、言語モデルの得点が最も高い同音異義語を新しいホットワードリストの単語とする第6のサブモジュール。
選択肢として、音声認識装置はさらに以下を含む。
音声認識結果に対して段落分割処理を行って段落の分割時点を取得する段落分割ユニット。
分割時点後に、共有テキストに基づいて予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて予め設定されたシーンの音声認識を実行する認識ユニット。
選択肢として、認識ユニットは以下を含む。
テキスト内容と音声認識結果の間のテキスト類似度を決定する類似度決定モジュール。
テキスト類似度及び類似度閾値に基づいて、テキスト類似度が類似度閾値より低い共有テキストをフィルタリングするフィルタリングモジュール。
上記装置を利用すると、音声認識の精度が高められる。このうち、音声認識装置の具体的な機能の実施形態は、上記方法の実施例の説明を参照できるので、ここでは省略する。
本出願の実施例は、上記方法の例のように電子機器の機能ユニットを区分してもよい。例えば、機能ごとに各機能ユニットを区分してもよいし、2つ以上の機能を一つの処理ユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態であってもよいし、ソフトウェア機能ユニットの形態であってもよい。説明すべき点については、本出願の実施例におけるユニットの区分は、概略的なものであり、論理機能の区分にすぎず、実際に実施される場合には、別の区分方法があってもよい。
本出願の実施例は、さらにコンピュータ記憶媒体を提供し、このうち、当該コンピュータ記憶媒体には電子データ交換のためのコンピュータプログラムが格納され、当該コンピュータプログラムは、コンピュータに、上記方法の実施例に記載される任意の方法の一部又は全部のステップを実行させ、上記のコンピュータは電子機器を含む。
本出願の実施例はさらにコンピュータプログラム製品を提供し、上記のコンピュータプログラム製品は、コンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含み、上記のコンピュータプログラムは、コンピュータに、上記方法の実施例に記載される任意の方法の一部又は全部のステップを実行させるように動作する。当該コンピュータプログラム製品はソフトウェアインストールパッケージであってもよい。上記
のコンピュータは電子機器を含む。
説明すべき点については、前述した各方法の実施例については、説明を簡単にするために、一連の動作の組み合わせとして説明されているが、当業者には、本出願によれば、いくつかのステップが他の順序又は同時に実行されてもよいので、本出願は、説明される動作の順序によって限定されないことが認識されるべきである。また、明細書に記載される実施例は、すべて好ましい実施例であり、関連する動作及びモジュールは必ずしも本出願に必須なものではないことも当業者には認識されるべきである。
上記の実施例では、各実施例の説明に重点が置かれており、実施例では詳細に説明されていない部分については、他の実施例の説明を参照できる。
本出願に係るいくつかの実施例では、開示される装置は他の形態により実施されてもよいことが理解されるべきである。例えば、上述した装置の実施例は単に例示的であり、上記ユニットの区分のように、論理機能の区分にすぎず、実際に実施される場合には、複数のユニット又はコンポーネントが組み合わせるか、他のシステムに統合されてもよく、又はいくつかの特徴が省略されてもよく、又は実行されなくてもよいなど、追加の区分方法が存在してもよい。また、表示又は検討されている相互の結合又は直接結合又は通信接続は、いくつかのインターフェース、装置又はユニットを介した間接的な結合又は通信接続であってもよいし、電気的又は他の形態であってもよい。
上述の分離された構成要素として説明されたユニットは、物理的に分離されてもよいし、そうではなくてもよい。ユニットとして表示される構成要素は、物理的な構成要素であってもよいし、物理的な構成要素でなくてもよい。つまり、1つの場所に配置されてもよいし、複数のネットワーク構成要素に分散されてもよい。これらのユニットの一部又は全部は、実際の必要に応じて、本実施例の解決策の目的を達成するために選択されてもよい。
また、本出願の各実施例における各機能ユニットは、1つの処理ユニットに統合されてもよいし、各ユニットが物理的に個別に存在してもよいし、さらに2つ以上のユニットが1つのユニットに統合されてもよい。上記の統合されたユニットは、ハードウェアの形態で実現してもよいし、ソフトウェア機能ユニットの形態で実現してもよい。
上記の統合ユニットは、ソフトウェア機能ユニットの形態で実現され、独立した製品として販売又は使用される場合には、一つのコンピュータ読取可能なメモリに格納されてもよい。このような理解に基づいて、本出願の技術案が本質的に又は従来技術に貢献する部分、又は当該技術案の全部若しくは一部がソフトウェア製品の形で具現化されることができる。当該コンピュータソフトウェア製品は一つのメモリに記憶され、1台のコンピュータ装置(パーソナルコンピュータ、サーバー又はネットワーク装置など)に、本出願の各実施例における上記方法の全部又は一部のステップを実行させるよう、いくつかの命令を含む。上述したメモリは、USBメモリ、読み取り専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、リムーバブルハードディスク、磁気ディスク又は光ディスクなど、プログラムコードを記憶するさまざまな媒体を含む。
当業者であれば、上記の実施例の各方法の全部又は一部のステップが、関連するハードウェアにプログラムが指示することによって達成され得ることが理解される。当該プログラムは、コンピュータの読取可能なメモリに記憶することができる。メモリには、フラッシュドライブ、読み取り専用メモリ(以下、「ROM」という)、ランダムアクセスメモリ(以下、「RAM」という)、磁気ディスク又は光ディスクなどを含むことができる。
以上、本出願の実施例について詳細に説明しているが、本明細書では、具体的な例を用いて本出願の原理及び実施形態について説明している。上記実施例の説明は、本出願の方法及びその核心的な考えの理解を助けるためにのみ用いられる。また、当業者にとっては、本出願の考えにより、具体的な実施形態及び応用範囲においていずれも変更点があり、上述したように、本明細書の内容は本出願に対する制限と理解すべきではない。

Claims (19)

  1. 音声認識方法であって、
    予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定することと、
    前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することと、を含むことを特徴とする音声認識方法。
  2. 前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には、
    前記共有テキストに対して単語分割・分類処理を行って、キーワードを取得し、前記キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することと、
    カスタム言語モデル及び前記新しいホットワードリストにより音声認識を実行することと、
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前に、前記方法は、さらに、
    前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キーワードに基づいて前記予め設定されたシーンのホットワードリストを更新し、新しいホットワードリストを取得することを含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することは、具体的には、
    前記カスタム言語モデル及び前記新しいホットワードリストを用いて前記予め設定されたシーンの音声認識を実行することを含む、
    ことを特徴とする請求項3に記載の方法。
  5. 前記新しいホットワードリストの有効時点は、前記新しいホットワードリストの生成時点である、
    ことを特徴とする請求項2~4のいずれか1項に記載の方法。
  6. 前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定することは、具体的には、
    予め設定されたシーンの音声を収集して認識し、センテンステキストとセンテンス時間情報とを含む音声認識結果を取得することと、
    前記テキスト時間情報及び前記センテンス時間情報に基づいてマッチングし、前記センテンス時間情報とマッチングする場合、前記テキスト時間情報に対応する前記テキスト内容を前記共有テキストとすることと、
    を含むことを特徴とする請求項2~5のいずれか1項に記載の方法。
  7. 前記方法はさらに、前記音声認識結果を前記共有テキストとすることを含む、
    ことを特徴とする請求項6に記載の方法。
  8. 前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キー
    ワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することは、具体的には、
    前記共有テキストに対して単語分割、分類処理を行って、フレーズ集合又はセンテンス集合を取得することと、
    フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定することとを含み、
    前記単語頻度は、前記フレーズ集合又は前記センテンス集合における前記フレーズの出現回数である、
    ことを特徴とする請求項2~7のいずれか1項に記載の方法。
  9. 前記フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定することは、具体的には、
    前記フレーズ集合における各フレーズの単語頻度を取得することと、
    前記単語頻度が前記単語頻度の閾値以上であり、かつ異なる端末から送信されたフレーズを前記キーワードとすることと、
    TF-IDFアルゴリズムを用いて、前記単語頻度が前記単語頻度の閾値より小さいフレーズから、前記キーワードを選別することと、
    を含むことを特徴とする請求項8に記載の方法。
  10. フレーズの単語頻度及び単語頻度の閾値に基づいて前記キーワードを決定する前には、さらに、
    前記ホットワードリストに基づいて前記フレーズ集合をフィルタリングすることを含む、
    ことを特徴とする請求項8又は9に記載の方法。
  11. 前記共有テキストに対して単語分割・分類処理を行ってキーワードを取得し、前記キーワードに基づいてホットワードリストを更新し、新しいホットワードリストを取得することは、さらに、
    前記キーワードの間又は前記キーワードと前記ホットワードリストとの間に存在する同音異義語を決定することと、
    前記同音異義語が存在するセンテンステキストを決定し、前記センテンステキストにおける同音異義語を置き換え、単語が置き換えられた後のセンテンステキストを取得することと、
    前記単語が置き換えられた後のセンテンステキストの音声モデル得点に基づいて、言語モデルの得点が最も高い同音異義語を前記新しいホットワードリストの単語とすることと、
    を含むことを特徴とする請求項2~10のいずれか1項に記載の方法。
  12. 前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する前には、さらに、
    音声認識結果に対して段落分割処理を行って段落の分割時点を取得し、前記分割時点の後に、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行することを含む、
    ことを特徴とする請求項6~11のいずれか1項に記載の方法。
  13. 前記分割時点の後、前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得することは、
    前記テキスト内容と前記音声認識結果との間のテキスト類似度を決定することと、
    前記テキスト類似度及び類似度閾値に基づいて、テキスト類似度が前記類似度閾値より低い前記テキスト内容をフィルタリングすることと、
    を含むことを特徴とする請求項12に記載の方法。
  14. 前記複数台の端末は、第1の端末と第2の端末を含み、前記分割時点の後に、前記方法は、さらに、
    前記第1の端末と前記第2の端末のテキスト内容の間のテキスト類似度を第1のテキスト類似度として取得することと、
    前記第1の端末の第1のテキスト類似度が第1の予め設定された類似度閾値より大きい数量を取得することと、
    前記第1の端末から送信されたテキスト内容と前記第1の端末から送信された音声認識結果との間のテキスト類似度を第2のテキスト類似度として取得することと、
    前記数量及び前記第2のテキスト類似度に基づいて前記第1の端末から送信された共有テキストをフィルタリングすることと、
    を含むことを特徴とする請求項12に記載の方法。
  15. 前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得することは、
    現在の音声段落認識が終了した後に得られた段落集合における共有テキストに基づいて初期言語モデルを取得することと、
    初期言語モデル及び予め設定された言語モデルに基づいて確率補間処理を行い、カスタム言語モデルを取得することと、
    を含むことを特徴とする請求項1~14のいずれか1項に記載の方法。
  16. 前記テキスト内容は、ユーザーが前記端末で作成した、前記予め設定されたシーンに関する内容であり、
    前記テキスト内容は、ユーザーが前記予め設定されたシーンに基づいて作成したメモ、ユーザーが前記予め設定されたシーンに関する電子資料に作成したマーク、ユーザーがユーザースマート端末を使って撮影した文字情報を含む写真のいずれか一つを含む、
    ことを特徴とする請求項1~15のいずれか1項に記載の方法。
  17. 音声認識装置であって、
    予め設定されたシーンにおける複数台の端末から送信されたテキスト内容及びテキスト時間情報を取得し、前記テキスト内容及び前記テキスト時間情報に基づいて前記予め設定されたシーンの共有テキストを決定する取得ユニットと、
    前記共有テキストに基づいて前記予め設定されたシーンのカスタム言語モデルを取得し、前記カスタム言語モデルを用いて前記予め設定されたシーンの音声認識を実行する認識ユニットと、
    を含むことを特徴とする音声認識装置。
  18. コンピュータ記憶媒体であって、
    プロセッサによって実行される時に、請求項1~16のいずれか1項に記載の音声認識方法を実行するプログラム命令を含むコンピュータプログラムを格納する、
    ことを特徴とするコンピュータ記憶媒体。
  19. コンピュータプログラム製品であって、
    請求項1~16のいずれか1項に記載のステップの一部又は全部をコンピュータに実行させるように動作するコンピュータプログラムを格納する非一時的なコンピュータ読取可能な記憶媒体を含む、
    ことを特徴とするコンピュータプログラム製品。
JP2022531437A 2019-12-28 2020-12-14 音声認識方法及び関連製品 Active JP7413533B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911389673.X 2019-12-28
CN201911389673.XA CN111161739B (zh) 2019-12-28 2019-12-28 语音识别方法及相关产品
PCT/CN2020/136126 WO2021129439A1 (zh) 2019-12-28 2020-12-14 语音识别方法及相关产品

Publications (2)

Publication Number Publication Date
JP2023504796A true JP2023504796A (ja) 2023-02-07
JP7413533B2 JP7413533B2 (ja) 2024-01-15

Family

ID=70559183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022531437A Active JP7413533B2 (ja) 2019-12-28 2020-12-14 音声認識方法及び関連製品

Country Status (6)

Country Link
US (1) US20230035947A1 (ja)
EP (1) EP4083999A4 (ja)
JP (1) JP7413533B2 (ja)
KR (1) KR20220054587A (ja)
CN (1) CN111161739B (ja)
WO (1) WO2021129439A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161739B (zh) * 2019-12-28 2023-01-17 科大讯飞股份有限公司 语音识别方法及相关产品
CN111930949B (zh) * 2020-09-11 2021-01-15 腾讯科技(深圳)有限公司 搜索串处理方法、装置、计算机可读介质及电子设备
CN112489651B (zh) * 2020-11-30 2023-02-17 科大讯飞股份有限公司 语音识别方法和电子设备、存储装置
CN112562659B (zh) * 2020-12-11 2024-04-09 科大讯飞(上海)科技有限公司 语音识别方法、装置、电子设备和存储介质
CN112954235B (zh) * 2021-02-04 2021-10-29 读书郎教育科技有限公司 一种基于家庭互动早教平板交互方法
CN114143281B (zh) * 2021-11-10 2023-03-14 聚好看科技股份有限公司 一种文案生成方法、服务器及显示设备
CN114464182B (zh) * 2022-03-03 2022-10-21 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
CN115374793B (zh) * 2022-10-25 2023-01-20 深圳市人马互动科技有限公司 基于服务场景识别的语音数据处理方法及相关装置
CN117198289B (zh) * 2023-09-28 2024-05-10 阿波罗智联(北京)科技有限公司 语音交互方法、装置、设备、介质及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004233541A (ja) * 2003-01-29 2004-08-19 Riyuukoku Univ ハイライトシーン検出システム
JP2011048405A (ja) * 2010-12-10 2011-03-10 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
US20120143605A1 (en) * 2010-12-01 2012-06-07 Cisco Technology, Inc. Conference transcription based on conference data
JP2013029652A (ja) * 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
CN103838756A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 一种确定推送信息的方法及装置
US9529794B2 (en) * 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
CN105448292B (zh) * 2014-08-19 2019-03-12 北京羽扇智信息科技有限公司 一种基于场景的实时语音识别系统和方法
CN104464733B (zh) * 2014-10-28 2019-09-20 百度在线网络技术(北京)有限公司 一种语音对话的多场景管理方法及装置
CN105045778B (zh) * 2015-06-24 2017-10-17 江苏科技大学 一种汉语同音词错误自动校对方法
CN105654945B (zh) * 2015-10-29 2020-03-06 乐融致新电子科技(天津)有限公司 一种语言模型的训练方法及装置、设备
CN105719649B (zh) * 2016-01-19 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN106328147B (zh) * 2016-08-31 2022-02-01 中国科学技术大学 语音识别方法和装置
CN107644641B (zh) * 2017-07-28 2021-04-13 深圳前海微众银行股份有限公司 对话场景识别方法、终端以及计算机可读存储介质
CN112204563A (zh) * 2018-02-15 2021-01-08 得麦股份有限公司 用于基于用户通信的视觉场景构建的系统和方法
CN108984529B (zh) * 2018-07-16 2022-06-03 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN109272995A (zh) * 2018-09-26 2019-01-25 出门问问信息科技有限公司 语音识别方法、装置及电子设备
CN110534094B (zh) * 2019-07-31 2022-05-31 大众问问(北京)信息科技有限公司 一种语音交互方法、装置及设备
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质
WO2021040092A1 (ko) * 2019-08-29 2021-03-04 엘지전자 주식회사 음성 인식 서비스 제공 방법 및 장치
CN110544477A (zh) * 2019-09-29 2019-12-06 北京声智科技有限公司 一种语音识别方法、装置、设备及介质
CN111161739B (zh) * 2019-12-28 2023-01-17 科大讯飞股份有限公司 语音识别方法及相关产品
CN112037792B (zh) * 2020-08-20 2022-06-17 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN112562659B (zh) * 2020-12-11 2024-04-09 科大讯飞(上海)科技有限公司 语音识别方法、装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004233541A (ja) * 2003-01-29 2004-08-19 Riyuukoku Univ ハイライトシーン検出システム
US20120143605A1 (en) * 2010-12-01 2012-06-07 Cisco Technology, Inc. Conference transcription based on conference data
JP2011048405A (ja) * 2010-12-10 2011-03-10 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2013029652A (ja) * 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム

Also Published As

Publication number Publication date
WO2021129439A1 (zh) 2021-07-01
EP4083999A1 (en) 2022-11-02
EP4083999A4 (en) 2024-01-17
US20230035947A1 (en) 2023-02-02
CN111161739B (zh) 2023-01-17
KR20220054587A (ko) 2022-05-03
JP7413533B2 (ja) 2024-01-15
CN111161739A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
JP2023504796A (ja) 音声認識方法及び関連製品
US11314370B2 (en) Method for extracting salient dialog usage from live data
WO2021217935A1 (zh) 问题生成模型的训练方法、问题生成方法及其相关设备
CN110110041B (zh) 错词纠正方法、装置、计算机装置及存储介质
JP7430660B2 (ja) テキストの創作方法、装置、機器及び記憶媒体
AU2016256764B2 (en) Semantic natural language vector space for image captioning
GB2547068B (en) Semantic natural language vector space
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
JP7304370B2 (ja) ビデオ検索方法、装置、デバイス及び媒体
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
WO2021134524A1 (zh) 数据处理方法、装置、电子设备和存储介质
WO2021120690A1 (zh) 语音识别方法、装置和介质
CN104428770A (zh) 使用自然动作输入的上下文查询调节
WO2023071562A1 (zh) 语音识别文本处理方法、装置、设备、存储介质及程序产品
US10140292B2 (en) Device and computerized method for picture based communication
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
WO2014036827A1 (zh) 一种文本校正方法及用户设备
CN113408208A (zh) 模型训练方法、信息提取方法、相关装置及存储介质
CN109190116B (zh) 语义解析方法、系统、电子设备及存储介质
JP6095487B2 (ja) 質問応答装置、及び質問応答方法
CN112562659A (zh) 语音识别方法、装置、电子设备和存储介质
CN110992960A (zh) 控制方法、装置、电子设备和存储介质
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
WO2022227166A1 (zh) 词语替换方法、装置、电子设备和存储介质
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231227

R150 Certificate of patent or registration of utility model

Ref document number: 7413533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150