JP2024502946A - 音声認識トランスクリプトの句読点付け及び大文字化 - Google Patents

音声認識トランスクリプトの句読点付け及び大文字化 Download PDF

Info

Publication number
JP2024502946A
JP2024502946A JP2023538022A JP2023538022A JP2024502946A JP 2024502946 A JP2024502946 A JP 2024502946A JP 2023538022 A JP2023538022 A JP 2023538022A JP 2023538022 A JP2023538022 A JP 2023538022A JP 2024502946 A JP2024502946 A JP 2024502946A
Authority
JP
Japan
Prior art keywords
text corpus
capitalization
punctuation
training
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023538022A
Other languages
English (en)
Inventor
アブラハム ファイザコフ,
アーノン マッツア,
レフ ハイキン,
エヤル オーバッハ,
Original Assignee
ジェネシス クラウド サービシーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジェネシス クラウド サービシーズ インコーポレイテッド filed Critical ジェネシス クラウド サービシーズ インコーポレイテッド
Publication of JP2024502946A publication Critical patent/JP2024502946A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

方法であって、句読点付け及び大文字化されたテキストを含む第1のテキストコーパスを受け取ることと、第1のテキストコーパス内の単語に、各単語の句読点付け及び大文字表記を示すラベルのセットで注釈付けすることと、初期訓練段階において、(i)第1のテキストコーパス内の注釈付けされた単語と、(ii)ラベルを含む第1の訓練セットに対して機械学習モデルを訓練することと、会話音声を表す第2のテキストコーパスを受け取ることと、第2のテキストコーパス内の単語にラベルのセットで注釈付けすることと、再訓練段階において、(iii)第2のテキストコーパス内の注釈付けされた単語と、(iv)ラベルと、を含む、第2の訓練セットに対して、機械学習モデルを再訓練することと、推論段階において、訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を含む、方法。【選択図】図1

Description

(関連出願の相互参照及び優先権の主張)
本出願は、2020年12月28日に出願された「PUNCTUATION AND CAPITALIZATION OF SPEECH RECOGNITION TRANSCRIPTS」と題する米国特許出願第17/135,283号の優先権を主張する。
コールセンター分析において、音声認識は、これらの変換の分析における第1のステップとして、例えば、重要なコールイベント、クライアント感情を検出するために、又は会話の内容を要約するために、エージェントと顧客との間の会話をトランスクリプトするために使用される。コールセンターにおける電話内容の自動トランスクリプトのための別の一般的な使用事例は、例えば、監督者によって電話内容品質制御を実行することである。
従来、音声認識結果は、テキストの句読点付け及び大文字化を含まない。結果として、自動的に生成されたトランスクリプトは、より頻繁に句読点付け及び大文字化される人間が生成したトランスクリプトよりも判読しにくい。
認識されたテキストが下流の自然言語処理(natural language processing、NLP)アプリケーションによって更に処理される場合、より判読しやすいことに加えて、句読点付け及び大文字化が重要である。例えば、名前付きエンティティ認識装置は、それらのエンティティを認識しやすくする名前及び場所の大文字化から明らかに利益を得る。
関連技術の前述の例及びそれに関連する制限は、例解的であることが意図され、排他的ではない。関連技術の他の制限は、本明細書を読み、図面を検討することによって当業者に明らかになるであろう。
以下の実施形態及びその態様は、範囲を限定するものではなく、例示的かつ例解的であることが意図されるシステム、ツール、及び方法と併せて説明及び例解される。
一実施形態では、システムであって、少なくとも1つのハードウェアプロセッサと、プログラム命令を記憶した非一時的コンピュータ可読記憶媒体と、を備え、プログラム命令は、少なくとも1つのハードウェアプロセッサによって、句読点付け及び大文字化されたテキストを含む第1のテキストコーパスを受け取ることと、第1のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第1のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、初期訓練段階において、第1の訓練セットに対して機械学習モデルを訓練することであって、第1の訓練セットは、(i)第1のテキストコーパス内の注釈付けされた単語と、(ii)ラベルと、を含む、訓練することと、会話音声を表す第2のテキストコーパスを受け取ることと、第2のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第2のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、再訓練段階において、第2の訓練セットに対して機械学習モデルを再訓練することであって、第2の訓練セットは、(iii)第2のテキストコーパス内の注釈付けされた単語と、(iv)ラベルと、を含む、再訓練することと、推論段階において、訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を行うように実行可能なプログラム命令である、システムが提供される。
一実施形態では、方法であって、句読点付け及び大文字化されたテキストを含む第1のテキストコーパスを受け取ることと、第1のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第1のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、初期訓練段階において、第1の訓練セットに対して機械学習モデルを訓練することであって、第1の訓練セットは、(i)第1のテキストコーパス内の注釈付けされた単語と、(ii)ラベルと、を含む、訓練することと、会話音声を表す第2のテキストコーパスを受け取ることと、第2のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第2のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、再訓練段階において、第2の訓練セットに対して機械学習モデルを再訓練することであって、第2の訓練セットは、(iii)第2のテキストコーパス内の注釈付けされた単語と、(iv)ラベルと、を含む、再訓練することと、推論段階において、訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を含む、方法もまた提供される。
一実施形態では、プログラム命令が具現化されている非一時的コンピュータ可読記憶媒体を備える、コンピュータプログラム製品であって、プログラム命令は、少なくとも1つのハードウェアプロセッサによって、句読点付け及び大文字化されたテキストを含む第1のテキストコーパスを受け取ることと、第1のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第1のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、初期訓練段階において、第1の訓練セットに対して機械学習モデルを訓練することであって、第1の訓練セットは、(i)第1のテキストコーパス内の注釈付けされた単語と、(ii)ラベルと、を含む、訓練することと、会話音声を表す第2のテキストコーパスを受け取ることと、第2のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第2のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、再訓練段階において、第2の訓練セットに対して機械学習モデルを再訓練することであって、第2の訓練セットは、(iii)第2のテキストコーパス内の注釈付けされた単語と、(iv)ラベルと、を含む、再訓練することと、推論段階において、訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を行うように実行可能である、コンピュータプログラム製品が更に提供される。
いくつかの実施形態では、句読点付けを示すラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示すラベルは、大文字化及びその他からなる群から選択される。
いくつかの実施形態では、第1のテキストコーパスは、訓練の前に、少なくとも第1のテキストコーパス内の全ての単語を小文字に変換することによって前処理される。
いくつかの実施形態では、第2のテキストコーパスは、再訓練の前に、コンテキスト化を実行することによって前処理され、コンテキスト化は、テキストコーパスを、各々が少なくとも2つの文を含むセグメントにセグメント化することを含む。
いくつかの実施形態では、第2のテキストコーパスが、再訓練の前に、データ拡張を実行することによって前処理され、データ拡張は、会話音声内の1つ以上の先行する文、及び会話音声内の1つ以上の後続の文のうちの少なくとも1つを追加することによってセグメントの少なくともいくつかを延長することを含む。
いくつかの実施形態では、予測することは、予測された句読点付け及び予測された大文字化の各々と関連付けられた信頼スコアを含み、ターゲットセット内の単語がセグメントのうちの2つ以上に含まれ、句読点付け又は大文字化に関する予測のうちの2つ以上を受け取るとき、2つ以上の予測と関連付けられた信頼スコアを平均化して、予測することの最終的な信頼スコアを生成する。
いくつかの実施形態では、第2のテキストコーパスは、再訓練の前に、文末(end-of-sentence、EOS)埋め込みを含めることによって前処理される。
いくつかの実施形態では、第2のテキストコーパス及び単語のターゲットセットは各々、少なくとも2人の参加者間の会話を表すトランスクリプトされたテキストを含み、少なくとも2人の参加者は、コールセンターのエージェント及び顧客である。
いくつかの実施形態では、トランスクリプトすることは、テキスト検出、音声認識、及び音声テキスト化検出からなる群から選択される少なくとも1つの分析を含む。
一実施形態では、システムであって、少なくとも1つのハードウェアプロセッサと、プログラム命令を記憶した非一時的コンピュータ可読記憶媒体と、を備え、プログラム命令は、少なくとも1つのハードウェアプロセッサによって、マルチタスクニューラルネットワークの動作を実行するように実行可能であり、マルチタスクニューラルネットワークは、少なくとも1つの文を含むテキストコーパスを入力として受け取り、少なくとも1つの文中の各単語の大文字化を予測する大文字化予測ネットワークであって、第1の損失関数に基づいて訓練される大文字化予測ネットワークと、テキストコーパスを入力として受け取り、テキストコーパスに関する句読点付けを予測する句読点付け予測ネットワークであって、第2の損失関数に基づいて訓練される句読点付け予測ネットワークと、第1及び第2の損失関数を組み合わせるマルチタスク損失関数に基づいて、大文字化及び句読点付けの連携予測を出力する出力層と、を含み、大文字化予測ネットワーク及び句読点付け予測ネットワークは、連携して訓練される、システムが更に提供される。
いくつかの実施形態では、プログラム命令は、推論段階において、マルチタスクニューラルネットワークを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測するように更に実行可能である。
いくつかの実施形態では、連携訓練は、初期訓練段階において、第1の訓練セットに対して、大文字化予測ネットワーク及び句読点付け予測ネットワークを連携して訓練することを含み、第1の訓練セットは、(i)句読点付け及び大文字化されたテキストを含む第1のテキストコーパスと、(ii)第1のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示すラベルと、を含む。
いくつかの実施形態では、連携訓練は、再訓練段階において、第2の訓練セットに対して、大文字化予測ネットワーク及び句読点付け予測ネットワークを連携して訓練することを更に含み、第2の訓練セットは、(i)会話音声を表す第2のテキストコーパスと、(ii)第2のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示すラベルと、を含む。
いくつかの実施形態では、句読点付けを示すラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示すラベルは、大文字化及びその他からなる群から選択される。
いくつかの実施形態では、第1のテキストコーパスは、訓練の前に、少なくとも第1のテキストコーパス内の全ての単語を小文字に変換することによって前処理される。
いくつかの実施形態では、第2のテキストコーパスは、再訓練の前に、コンテキスト化を実行することによって前処理され、コンテキスト化は、テキストコーパスを、各々が少なくとも2つの文を含むセグメントにセグメント化することを含む。
いくつかの実施形態では、第2のテキストコーパスが、再訓練の前に、データ拡張を実行することによって前処理され、データ拡張は、会話音声内の1つ以上の先行する文、及び会話音声内の1つ以上の後続の文のうちの少なくとも1つを追加することによってセグメントの少なくともいくつかを延長することを含む。
いくつかの実施形態では、第2のテキストコーパスは、再訓練の前に、文末(EOS)埋め込みを含めることによって前処理される。
上で説明される例示的な態様及び実施形態に加えて、更なる態様及び実施形態が、図面を参照し、以下の詳細な説明を検討することによって明らかになるであろう。
例示的な実施形態が、参照される図に例解される。図に示される構成要素及び特徴の寸法は、概して、提示の便宜及び明確さのために選択され、必ずしも縮尺通りに示されていない。図面を以下に列挙する。
いくつかの実施形態による、句読点付け及び大文字化を連携して予測するためのモデルを概略的に例解する。 いくつかの実施形態による、トランスクリプトされたテキストにおける句読点付け及び大文字化の自動予測のための機械学習モデルを生成するための訓練のための本開示のプロセスである機能ステップのフローチャートである。 いくつかの実施形態による、本開示の1つ以上の機械学習訓練データセットを構築することと併せたデータ処理ステップの概略例解図である。 いくつかの実施形態による、本開示の機械学習モデルのコンテキストにおいて採用され得る、文末埋め込みを含むニューラルネットワーク構造の概略例解図である。 いくつかの実施形態による、句読点付け及び大文字化を連携して予測するためのニューラルネットワーク構造の概略例解図である。
本明細書では、トランスクリプトされたテキストにおける句読点付け及び大文字化の自動予測のための方法、システム、及びコンピュータプログラム製品が開示される。いくつかの実施形態では、本開示は、特に、例えば、コンタクトセンター対話の自動トランスクリプションのコンテキストにおいて、会話音声トランスクリプションの自動句読点付け及び大文字化に特に好適である。
自動音声認識(automatic speech recognition、ASR)システムは、音声コマンド、音声アシスタント、ディクテーションツール、会話トランスクライバなどの様々なアプリケーションにおいて広く採用されつつある。多くのASRにおいて、重大な制限は、トランスクリプトされたテキストの句読点付け又は大文字化がないことである。これが問題となる可能性があるのは、出力を視覚的に提示する場合に、句読点付けされていないトランスクリプトは、読むこと及び理解することがより困難であることと、これらのトランスクリプトが、自然言語処理(NLP)の領域におけるタスクなどの下流タスクのための入力として使用されるときである。例えば、一般的なNLPシステムは、通常、句読点付けされたテキストに対して訓練され、したがって、句読点付けの欠如は、システムの性能の著しい劣化を引き起こす可能性がある。
典型的には、句読点付け及び大文字化のタスクは、教師あり機械学習方法を使用して解決される。そのようなモデルは、特徴のセット、例えば、テキスト自体、話者入力指示、及び/又はタイミング入力を使用してテキスト句読点付けを予測するための機械学習モデルを訓練するために、トランスクリプトされ、句読点付けされた音声コーパスを使用し得る。他のアプローチは、シーケンス間ネットワークアーキテクチャに依存し得、この場合、入力は、小文字の句読点付けされていない単語のシーケンスであり、出力は、訂正された大文字/小文字及び句読点付けが挿入されたシーケンスである。
いくつかの実施形態では、本開示は、自動トランスクリプトに句読点付け及び大文字化を追加することを提供し、これは、例えば、顧客とエージェントとの間の往復ダイアログを表す、マルチターンコールセンター会話のトランスクリプトと併せて使用するのに特に好適であり得る。
いくつかの実施形態では、本開示は、2段階訓練プロセスを使用して訓練された教師付き機械学習モデルを提供し、(i)第1のステップは、提供されたコーパスから、例えば、インターネットテキスト等の容易に利用可能かつ経済的なソースから、大量の句読点付け及び大文字化されたテキストを使用し、(ii)第2のステップは、句読点付け及び大文字化のために注釈付けされた比較的少量のダイアログトランスクリプトを使用するが、これは、手動注釈付けコストのため、取得するのによりコストがかかる。いくつかの実施形態では、第2の訓練ステップは、訓練データセット内のテキストに関するコンテキスト情報を提供する、素材拡張機構を採用する。いくつかの実施形態では、素材拡張はまた、文末埋め込みを採用し得る。
いくつかの実施形態では、本機械学習モデルは、マルチタスク訓練のために構成された一意的なニューラルネットワークアーキテクチャに基づく。マルチタスク学習又は訓練は、複数の学習タスクが同時に解決される一方で、タスクにわたる共通性を活用する機械学習タスクのカテゴリである。これにより、モデルを別々に訓練する場合と比較して、タスク固有モデルの学習効率及び予測精度を向上させることができる。マルチタスク機械学習モデルは、共有表現を使用しながら、2つ以上のタスクを並行して学習し、各タスクについて学習されるものは、他のタスクがより良く学習されるのを助けることができる。分類コンテキストでは、マルチタスク学習は、複数の分類タスクを連携して学習することによってそれらタスクの性能を改善することを目的とする。
したがって、いくつかの実施形態では、本開示は、大文字化及び句読点付けを連携して学習するように構成されたニューラルネットワークアーキテクチャを使用する機械学習モデルを提供し、連携学習は、別々の大文字化及び句読点付けモデルに対して潜在的な情報利得を提供する。いくつかの実施形態では、そのような機械学習モデルは、2つの学習タスク間の強い相互依存性を活用する。例えば、大文字化された単語は、ピリオドの後に来ることが多く、疑問符やピリオドなどの句読点付け情報は、次の単語が大文字化されるべきであることを示すことがある。
いくつかの実施形態では、本開示は、(i)句読点付け及び大文字化された一般テキストと、(ii)句読点付け及び大文字化のために注釈付けされたドメイン内マルチターンダイアログと、を含む、訓練コーパスを使用して、連携モデルを訓練することを提供する。いくつかの実施形態では、連携機械学習モデルは、複数の別個の機械学習タスクを実行し、連携モデルは、ターゲット単語又はトークンの大文字化ラベルを予測する大文字化機械学習分類器と、句読点付けラベルを予測する句読点付け機械学習モデルと、を備える。
図1に概略的に例解されるように、いくつかの実施形態では、本開示は、句読点付け及び大文字化を連携して予測するための単一の機械学習モデルを提供し、モデルの損失関数は、各タスクを最適に重み付けする。単一のモデルを使用することによって、本開示は、例えば、大文字化が近辺の句読点付け予測の結果に依存し得るとき、より一貫した出力及び改善された精度を提供する。加えて、両方のタスクを単一のモデルに組み合わせることは、低減された計算オーバーヘッド及びより良好なモデル性能を提供し得る。
いくつかの実施形態では、本開示は、観測値のシーケンスの各メンバーへのクラスラベルの自動割り当てを含むパターン認識タスクのタイプとして定義されるシーケンスタグ付けを使用する。
音声認識のコンテキストでは、シーケンスタグ付けは、品詞タグ付け(part-of-speech、POSタグ付け)を含み得、これは、テキスト内の単語を、その定義及びそのコンテキストの両方、例えば、名詞、動詞、形容詞、副詞などとしての文中の単語の識別に基づいて、特定の品詞に対応するものとしてマーク付けするプロセスである。シーケンスタグ付けはまた、チャンキング及び固有表現認識(named entity recognition、NER)などの他のNLPタスクを含み得る。
ほとんどのシーケンスラベルアルゴリズムは、本質的に確率的であり、最良のシーケンスを見出すための統計的推論に依存する。シーケンスラベリングに使用される最も一般的な統計モデルは、マルコフ仮定、すなわち、特定の単語に対するラベルの選択が直接隣接するラベルのみに直接依存するという仮定、を行う。したがって、ラベルのセットはマルコフ連鎖を形成する。これは、シーケンスラベリングに使用される最も一般的な統計モデルの1つである隠れマルコフモデル(hidden Markov model、HMM)に自然につながる。使用されている他の一般的なモデルは、最大エントロピーマルコフモデル及び条件付き確率場である。
いくつかの実施形態では、本開示は、シーケンスタグ付けタスクを実行するように訓練された1つ以上のニューラルネットワークベースの機械学習モデルを提供する。いくつかの実施形態では、これらのモデルは、1つ以上の長短期記憶(Long Short-Term Memory、LSTM)ネットワーク、双方向LSTMネットワーク(bidirectional LSTM、BiLSTM)、CRF層を有するLSTMネットワーク(LSTM networks with a CRF layer、LSTM-CRF)、及び/又は条件付き確率場(Conditional Random Field、CRF)層を有する双方向LSTMネットワーク(bidirectional LSTM networks with a Conditional Random Field、BILSTM-CRF)を含み得る。
いくつかの実施形態では、本開示の訓練された機械学習モデルは、入力として単語のシーケンスを受け取り、シーケンス内の単語ごとに、句読点付けタグのセットから予測句読点付けタグを出力するように構成され得、句読点付けタグは、単語に関して実行される句読点付けアクションを示し、例えば、以下の通りである。
Figure 2024502946000002
いくつかの実施形態では、本開示の訓練された機械学習モデルは、入力として単語のシーケンスを受け取り、シーケンス内の単語ごとに、大文字化タグの閉じたセットからこの単語の予測された大文字化タグを出力するように構成され得、大文字化タグは、単語に関して実行される大文字化アクションを示し、例えば、以下の通りである。
Figure 2024502946000003
図2Aは、いくつかの実施形態による、トランスクリプトされたテキストにおける句読点付け及び大文字化の自動予測のための機械学習モデルを生成するための訓練のための本開示のプロセスである機能ステップのフローチャートである。
図2Bは、いくつかの実施形態による、本開示の1つ以上の機械学習訓練データセットを構築することと併せたデータ処理ステップの概略例解図である。
いくつかの実施形態では、ステップ200において、本開示の第1の訓練データセットは、例えば、利用可能なプロプライエタリソース及び/又はパブリックソースから提供された一般テキストのコーパスを使用して生成され得る。いくつかの実施形態では、提供されるテキストは、句読点付け及び大文字化されたテキストである。いくつかの実施形態では、提供されたテキストは、対応する句読点付け及び大文字注釈で注釈付けされ、注釈付けは、注釈専門家によって手動で実行され得る。
いくつかの実施形態では、提供されたコーパスは、例えば、言語及び/又は他の基準に基づくフィルタリングによって、テキストのサブセットを抽出するために、選択及び/又はフィルタリングを受ける。いくつかの実施形態では、このステップは、ノイズ及び無関係な素材を除去し、これは、訓練をより高速にし、ノイズの悪影響を受けにくくするのに役立つ。
いくつかの実施形態では、本開示は、音声認識言語モデルを使用する言語モデリングアプローチを使用して、提供されたコーパスから関連サブセットを選択し、モデルは、入力文がドメイン固有(例えば、コールセンター)音声に適用された音声認識プロセスの結果である確率を予測する。いくつかの実施形態では、本開示は、単語カウントモデルを使用し得、提供されたコーパス内の各文に対して、モデルは、文中の単語のうちのいくつが既知の辞書(例えば、典型的なコールセンター語彙を含むドメイン固有のひずみ)内のエントリに一致するかをカウントし、指定された閾値(例えば、80%)を上回る語彙内単語を含む文のみを選択し得る。
いくつかの実施形態では、ステップ202において、提供されたテキストコーパスは、例えば、コーパス内のテキストを正規化及び/又は標準化するために、前処理され得る。例えば、前処理を適用して、全ての単語を小文字に変換し、かつ/又は対応する句読点付けタグ及び大文字化タグで各単語にタグ付けし得る。例えば、いくつかの実施形態では、「Hi,how can I help you?」という文は、以下のように変換され得る。
Figure 2024502946000004
いくつかの実施形態では、本開示の前処理段階は、文のコーパスを生成し得、コーパス内の全てのエンティティ(単語)は、一様に(例えば、小文字で)提示される。
いくつかの実施形態では、ステップ204において、第1の訓練データセットは、本開示の機械学習モデルの予備訓練を実行するために使用され得る。いくつかの実施形態では、例えば、第1の訓練データセットに対して訓練された、本開示の予備的に訓練された機械学習モデルは、トランスクリプトされたテキスト、例えば、公的に利用可能なコーパスからのテキストにおける、句読点付け及び大文字化を予測するように構成され得る。
いくつかの実施形態では、ステップ206において、本開示の第2の訓練データセットは、会話音声を含むドメイン固有テキストコーパスを使用して、例えば、コールセンター会話トランスクリプトを使用して、構築され得る。いくつかの実施形態では、会話音声コーパスは、マルチターンダイアログ、例えば、顧客とエージェントとの間の往復ダイアログを特徴とする2人以上の参加者間の会話を含み得る。
いくつかの実施形態では、ドメイン固有会話音声コーパスは、例えば、記録された音声会話の手動トランスクリプトを使用して、記録された会話から取得され得る。いくつかの実施形態では、ドメイン固有会話音声コーパスは、記録されたれた音声会話を認識するための自動音声認識(ASR)を使用して、記録された会話から取得され得る。
いくつかの実施形態では、ドメイン固有会話音声コーパスは、例えば、手動で、句読点付け及び大文字化され得る。いくつかの実施形態では、ドメイン固有会話音声コーパスは、対応する句読点付け及び大文字注釈で注釈付けされ得、注釈付けは、注釈専門家によって手動で実行され得る。
いくつかの実施形態では、ドメイン固有会話音声コーパスは、以下のうちの1つ以上を含み得る。
・音声は、マルチモーダルソース、例えば、音声会話、タイプされたチャット、テキストメッセージング、電子メール会話などからのものであり得る。
・音声は、少なくとも2つの側の間、例えば、エージェントと顧客との間の対話を含み得る。
・音声は、様々な長さの会話、及び/又は会話の断片及び部分を反映し得る。
いくつかの実施形態では、提供されたテキストの会話音声コーパスは、対応する句読点付け及び大文字注釈で注釈付けされ、注釈付けは、注釈専門家によって手動で実行され得る。
いくつかの実施形態では、ステップ208において、会話音声コーパスは、例えば、テキストを正規化及び/又は標準化することによって、第1の訓練データセット内の一般テキスト(上記参照)と同様の方法で前処理され得る。例えば、前処理を適用して、全ての単語を小文字に変換し、かつ/又は対応する句読点付けタグ及び大文字化タグで各単語にタグ付けし得る。
いくつかの実施形態では、ステップ210において、コンテキスト化及び/又はデータ拡張を使用して、会話音声コーパスから取得された訓練データを強化し得る。
いくつかの実施形態では、会話音声コーパスは、例えば、句読点付けがコンテキスト依存であり得るという事実を認識して、コンテキスト化され得る。例えば、独立したシーケンスとして、「Takes a month to get there」という発話が質問であるのか、ステートメントであるのかを知ることは不可能である。しかしながら、そのコンテキスト(例えば、先行する及び/又は後続する発話)を考慮すると、その目的が明らかになる可能性がある。以下は、句読点付けがコンテキスト依存であり得る単語シーケンスを含む会話音声の例である。
Figure 2024502946000005
したがって、いくつかの実施形態では、本開示は、例えば、各々が複数の文を含む会話訓練セグメントを生成することによって、ドメイン固有の会話音声をコンテキスト化することを提供する。いくつかの実施形態では、そのような会話音声セグメントは、例えば、1つ以上のルールに従って会話音声コーパスをセグメント化することによって作成され得る。例えば、会話が12個の文[S,S,...,S2]を含むとき、セグメント化ルールは、訓練セグメントが以下のようになるように、会話を4文セグメントにセグメント化することを提供し得る。
Figure 2024502946000006
Figure 2024502946000007
=[S,S10,S10,S12
他の実施形態では、追加の及び/又は他のセグメント化及び/又は連結規則が適用され、例えば、より多くの又はより少ない文を会話型訓練セグメントに連結し得る。
しかしながら、すぐ上に示したような文の連結及び/又はセグメント化の潜在的な欠点は、各会話型訓練セグメント内の端の文、例えば、セグメントE内の文S及びセグメントE内の文Sは、先行するテキストデータを使用して適切にコンテキスト化することができず、一方、セグメントE内の文S及びセグメントE内のSは、例えば、後続のテキストデータを使用して適切にコンテキスト化することができない。(Sはもちろん、前にコンテキストを有することはできない)。
したがって、いくつかの実施形態では、ステップ210において、本開示は、データ拡張を提供し、データ拡張機構は、例えば、会話からの先行及び後続のダイアログを使用して、各文を両方向に拡大するように構成される。例えば、本開示のデータ拡張アルゴリズムは、結果が、許容可能性の指定の基準、例えば、単語数及び/又は話者数最小値を満たすまで、先行する文及び/又は後続の文を所与の第1の文に反復的に追加するように構成され得る。
いくつかの実施形態では、本開示のデータ拡張アルゴリズムは、以下を含み得る。
Figure 2024502946000008
いくつかの実施形態では、add_sentence論理は、会話内の文インデックスに従って、例文の接頭辞又は接尾辞のいずれかとして、新しい文を追加する単純な論理である。
許容可能な例は、例えば、単語数及び/又は話者数の最小値を満たすなど、何らかの指定された規則に従う例であろう。例えば、許容可能な例は、少なくとも2人の話者及び少なくとも25個の単語を有することが必要とされ得る。
Figure 2024502946000009
このアルゴリズムを使用して、12個の文C=[S,S,...,S12]を有する同じ会話は、ここで、次のようにセグメント化することができる。
Figure 2024502946000010
Figure 2024502946000011
Figure 2024502946000012
Figure 2024502946000013
ここで、セグメント間の重複及び各セグメントの長さは動的であり、アルゴリズムによって決定され、会話内の各文は、2つ以上のコンテキストで使用することができ、通常は使用される。
いくつかの実施形態では、ステップ212において、本開示は、訓練データセットにおける文末(EOS)埋め込みを提供する。単一の文を含む訓練セグメントに注目すると、ニューラルネットワークへの入力を表すことは些細なことであり、標準的な1-hot表現を使用して行うことができ、ここで、全ての単語は、語彙のサイズでベクトル内のインデックスを取得し、単語は、シーケンス内で1つずつ入力される。しかしながら、複数の文が訓練例に含まれる場合、失われる可能性がある重要な情報、例えば、どれが全ての文の最後の単語であるか、がある。文中の最後の単語にはほとんど常にピリオド又は疑問符が続き、それに続く単語は常に大文字化されるので、この情報は句読点付け及び大文字化の両方にとって重要である。
したがって、いくつかの実施形態では、本開示は、複数の連結された文を含む訓練例にEOSデータを埋め込むことを提供する。いくつかの実施形態では、EOS埋め込みは、単語が文の「中」にあるか、又は文の「終わり」にあるかに関する指示を含み得る。例えば、上記で提示された短いダイアログ
Figure 2024502946000014
は、ニューラルネットワークの単一の訓練例として、以下のようになる。
Figure 2024502946000015
追加のEOS入力は、機械学習モデルが単語「in」及び「there」の後の句読点記号を予測するのを助け、モデルが単語「takes」を大文字化するのを助ける。
図3は、本開示の機械学習モデルのコンテキストにおいて採用され得る、ニューラルネットワーク構造の概略例解図である。図から分かるように、EOS埋め込みの追加は、この特徴に、単語埋め込みに対してかなりの重みを与える。いくつかの実施形態では、EOS特徴の埋め込みは、例えば、単語埋め込みの埋め込みサイズの10%である30の埋め込みサイズを表し得る。本発明者らは、EOS埋め込みとともにデータ拡張を使用することが、正確に予測するのに最も厳格なものである、疑問符及びカンマの分類において約10%の改善をもたらすことを見出した。
いくつかの実施形態では、ステップ214において、第2の訓練データセットは、本開示の機械学習モデルを再訓練するために使用され得る。
いくつかの実施形態では、ステップ216において、本開示の訓練された機械学習モデルを、例えば認識された会話音声を含むターゲットデータに適用して、音声に含まれる単語の句読点付け及び大文字化を予測し得る。
いくつかの実施形態では、本開示の機械学習モデルは、マルチタスク/多目的分類及び予測のために構成されたニューラルネットワーク構造を採用し得る。
背景として、分類タスクは典型的には、一度に1つずつ処理される。したがって、句読点付け及び大文字化タスクを実行するために、典型的には、2つのシーケンスタグ付け機械学習モデルを訓練する必要がある。
逆に、本開示は、マルチタスク学習を使用して、2つ以上のタスクを同時に実行するように訓練された単一の機械学習モデルを生成する。1つのモデルのみを訓練(オフラインプロセス)及び推論(生産におけるオンラインプロセス)しなければならないという明らかな利益に加えて、単一モデルはまた、潜在的な情報利益を有する。大文字化使用ネットワークを訓練する大文字化情報は、大文字化された単語はピリオドの後に来ることが多い、というタスク間の強い依存性のために、理論的には句読点付け訓練に寄与し得る。同様に、疑問符及びピリオドのような句読点付け情報は、次の単語が大文字化されるネットワークを訓練する。
したがって、いくつかの実施形態では、本開示は、図4に概略的に例解されるようなネットワークアーキテクチャを採用する。いくつかの実施形態では、図4に示される例示的なニューラルネットワーク構造は、本開示の機械学習モデルが句読点付け及び大文字化を連携して学習することを可能にする。
いくつかの実施形態では、本開示は、シーケンスタグ付けタスクを実行するように訓練された1つ以上のニューラルネットワークベースの機械学習モデルを提供する。いくつかの実施形態では、これらのモデルは、1つ以上の長短期記憶(LSTM)ネットワーク、双方向LSTMネットワーク(BiLSTM)、CRF層を有するLSTMネットワーク(LSTM-CRF)、及び/又は条件付き確率場(CRF)層を有する双方向LSTMネットワーク(BILSTM-CRF)を含み得る。
図4に見られるように、本開示の例示的なニューラルネットワークは、例えば、双方向LSTMネットワーク(BiLSTM)層、密層、及び/又は条件付き確率場(CRF)層のうちの1つ以上を備え得る。いくつかの実施形態では、本開示は、大文字化及び句読点付けを学習するための2つの連携ネットワークを備える例示的なニューラルネットワークを提供し得、ネットワークの各々は、例えば、BiLSTM層、密層、及びCRF層のうちの1つ以上を備える。いくつかの実施形態では、BiLSTM層は、隠れ状態が、履歴及び将来のコンテキスト情報の両方を捕捉し、次いで、トークンにラベル付けすることを可能にする。いくつかの実施形態では、CRF層は、結果に条件付き確率制約を課す、現在のラベルと隣接ラベルとの間の相関を考慮することを提供する。
いくつかの実施形態では、図4に提示される例示的なニューラルネットワークアーキテクチャは、連携ネットワークの各々について1つずつ、2つの損失関数、例えば、大文字化損失関数及び句読点付け損失関数を最小化することを提供する。いくつかの実施形態では、本ネットワークは、次いで、連帯予測の組み合わせられた損失を表す、句読点付け損失及び大文字化損失の加重和を計算する。いくつかの実施形態では、別個の損失関数の加重和は、各タスクにおけるクラスの相対数(それぞれ、4及び2)に対応する、句読点付け損失の割合2/3及び大文字化損失の割合1/3を反映し得る。マルチタスク訓練においてこれらの重みを使用すると、訓練及び生成における予測の両方において、計算オーバーヘッド及び複雑さのあらゆる低減に加えて、別個のモデルを使用するよりも全体的な改善を得ることができる。
いくつかの実施形態では、本開示は、大文字化及び句読点付けを学習するための2つの連携ネットワークを定義するネットワークアーキテクチャを含む機械学習モデルの連携訓練を提供する。いくつかの実施形態では、本開示の機械学習モデルを訓練するために使用される全ての訓練セグメントは、2つの異なるセットのタグ、すなわち、(実際の入力単語、及び任意選択的にEOS埋め込みに加えて)句読点付けのためのタグ及び大文字化のためのタグを含み得る。
Figure 2024502946000016
いくつかの実施形態では、図2の推論段階216において、データ拡張は、推論されたターゲット音声セグメントの間に重複を作成し得、文のうちのいくつかは、推論及び予測の目的で入力された複数のターゲットセグメントに現れる。
例えば、4つのターン(又は文)[T,T,T,T]を含む会話は、推論のための2つの例[T,T,T]、[T,T,T]を生成するために使用され得る。その場合、例えばT内の全ての単語は、コンテキスト[T,T,T]における1回、及びコンテキスト[T,T,T]における第2の回の、2回使用され得る。ターゲットセグメントに対して訓練された機械学習モデルを用いて推論すると、出力は、例えば、1つ以上の単語の句読点付け及び/又は大文字化に関して競合する予測を含み得る。いくつかの実施形態では、本開示の訓練された機械学習モデルは、分類クラスの各々について信頼スコアを割り当てるように構成され得、全てのクラスについてのスコアは合計1.0である。したがって、この例[T,T,T]内の各単語は、全ての可能なタグ(クラス)に対するスコアを得ることになり、この例[T,T,T]内の各単語は、全ての可能なタグ(クラス)に対するスコアを得ることになる。
したがって、Tが5単語[w,w,w,w,w]を含むと仮定すると、ターゲットセグメントコンテキスト[T,T,T]内のTを推論することは、単語wに関して以下の結果を生成し得る(この例の目的のために、Φは、Tにおける他の単語に関して「無関係」を示す)。
Figure 2024502946000017
同様に、ターゲットセグメントコンテキスト[T,T3,T]内のTを推論することは、単語wに関して以下の結果を生成し得る(Φは、この例の目的のために、Tにおける他の単語に関して「無関係」を示す)。
Figure 2024502946000018
したがって、いくつかの実施形態では、本開示は、各ターゲットセグメントコンテキスト内のあらゆる単語の全ての予測を考慮に入れる、競合タグ付け解決機構を提供する。各単語について、競合解決機構は、それが存在する全てのコンテキストから受け取る全ての予測スコアを平均し、最終的に最大平均スコアを選択する。
したがって、T内のwは以下のように平均を得点する:
Figure 2024502946000019
したがって、機械学習モデル出力は、可能なクラスの最も高い信頼スコアを受け取った句読点付けタグ「other」でwをタグ付けする。
本発明の実施形態のいくつかの態様は、多項選択式の質問に対する回答を特定のトピックと関連付けることと関連付けられ得る。例えば、質問のテキストを様々なトピックと比較するのと同様の様式で、どのトピックがこれらの回答を他の回答から区別するかを識別するために、多項選択式の質問の回答を質問テキストとともにトピックと比較することができる。言い換えれば、質問及び回答の両方が対話ドキュメント内で相関するので、各回答は、質問と統合されて別々の質問及び回答の組み合わせを形成し、結果として生じる組み合わせは、トピックと比較されて、最も類似したトピックが識別される。
本発明は、システム、方法、及び/又はコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持及び記憶することができる有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述のものの任意の好適な組み合わせであり得るが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(random access memory、RAM)、読取り専用メモリ(read-only memory、ROM)、消去可能プログラマブル読取り専用メモリ(erasable programmable read-only memory、EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(static random access memory、SRAM)、ポータブルコンパクトディスク読取り専用メモリ(compact disc read-only memory、CD-ROM)、デジタル多用途ディスク(digital versatile disk、DVD)、メモリスティック、フロッピーディスク、命令が記録された機械的に符号化されたデバイス、及び上記の任意の好適な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又はワイヤを通って伝送される電気信号などの、それ自体が一時的な信号であると解釈されるべきではない。むしろ、コンピュータ可読記憶媒体は、非一時的(すなわち、不揮発性)媒体である。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、又はネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/若しくはワイヤレスネットワークを介して外部コンピュータ若しくは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含み得る。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(instruction-set-architecture、ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はJava、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語を含む1つ以上のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上及び部分的にリモートコンピュータ上で、又は完全にリモートコンピュータ若しくはサーバ上で実行し得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(local area network、LAN)若しくはワイドエリアネットワーク(wide area network、WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、又は外部コンピュータへの接続が行われ得る(例えば、インターネットサービスプロバイダを使用してインターネットを介して)。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、又はプログラマブル論理アレイ(programmable logic array、PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行し得る。
本発明の態様は、本明細書において、本発明の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート例解図及び/又はブロック図を参照して説明される。フローチャート例解図及び/又はブロック図の各ブロック、並びにフローチャート例解図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装され得ることが理解されるであろう。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに提供されて、コンピュータ若しくは他のプログラム可能データ処理装置のプロセッサを介して実行される命令が、フローチャート及び/若しくはブロック図の1つ以上のブロックにおいて指定された機能/アクションを実施するための手段を作成するように、機械を生成し得る。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラム可能データ処理装置、及び/又は他のデバイスに特定の様式で機能するように指示することができるコンピュータ可読記憶媒体に記憶することもでき、その結果、命令が記憶されたコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図の1つ以上のブロックで指定された機能/アクションの態様を実装する命令を含む製品を含む。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードされて、一連の動作ステップをコンピュータ、他のプログラム可能装置、又は他のデバイス上で実行させて、コンピュータ実装プロセスを生成し得、その結果、コンピュータ、他のプログラム可能装置、又は他のデバイス上で実行する命令は、フローチャート及び/又はブロック図の1つ以上のブロックにおいて指定された機能/アクションを実装する。
図に提供されるフローチャート及びブロック図は、本発明の例示的な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を例解する。この点に関して、フローチャート及び/又はブロック図の各ブロックは、指定された論理機能を実装するための1つ以上の実行可能命令を有する、命令のモジュール、セグメント、又は一部分を表し得ることが理解されるであろう。いくつかの代替的な実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で発生し得る。例えば、連続して示されている2つのブロックは、実際には、実質的に同時に実行され得るか、又はブロックは、含まれる機能に応じて、時には逆の順序で実行され得る。ブロック図及び/又はフローチャート例解図の各ブロック、並びにブロック図及び/又はフローチャート例解図のブロックの組み合わせは、指定された機能若しくはアクションを実行する、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースのシステムによって実装され得ることにも留意されたい。
数値範囲の記載は、具体的に開示された全ての可能な部分範囲、並びにその範囲内の個々の数値を有すると考えられるべきである。例えば、1~6の範囲の記載は、1~3、1~4、1~5、2~4、2~6、3~6などの具体的に開示された部分範囲、並びにその範囲内の個々の数、例えば、1、2、3、4、5、及び6を有するとみなされるべきである。これは、範囲の幅に関係なく適用される。
本発明の様々な実施形態の説明は、例解目的で提示されているが、網羅的であること、又は開示された実施形態に限定されることは意図されていない。説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が、当業者に明白となるであろう。本明細書で使用される用語は、実施形態の原理、実際の適用、又は市場で見られる技術に対する技術的改善を最良に説明するために、又は他の当業者が本明細書で開示される実施形態を理解することを可能にするために選択された。
上記で行われ、説明された実験は、本発明の実施形態の有用性及び有効性を実証する。本発明のいくつかの実施形態は、特定の実験方法及び/又は実験結果に基づいて構成され得、したがって、以下の実験方法及び/又は実験結果は、本発明の実施形態とみなされるべきである。

Claims (29)

  1. システムであって、
    少なくとも1つのハードウェアプロセッサと、
    プログラム命令を記憶した非一時的コンピュータ可読記憶媒体と、を備え、前記プログラム命令は、前記少なくとも1つのハードウェアプロセッサによって、
    句読点付け及び大文字化されたテキストを含む第1のテキストコーパスを受け取ることと、
    前記第1のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、前記ラベルは、前記第1のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
    初期訓練段階において、第1の訓練セットに対して機械学習モデルを訓練することであって、前記第1の訓練セットは、
    (i)前記第1のテキストコーパス内の注釈付けされた前記単語と、
    (ii)前記ラベルと、を含む、訓練することと、
    会話音声を表す第2のテキストコーパスを受け取ることと、
    前記第2のテキストコーパス内の単語に前記ラベルのセットで注釈付けすることであって、前記ラベルは、前記第2のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
    再訓練段階において、第2の訓練セットに対して前記機械学習モデルを再訓練することであって、前記第2の訓練セットは、
    (iii)前記第2のテキストコーパス内の注釈付けされた前記単語と、
    (iv)前記ラベルと、を含む、再訓練することと、
    推論段階において、前記訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、前記ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を行うように実行可能である、システム。
  2. 句読点付けを示す前記ラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示す前記ラベルは、大文字化及びその他からなる群から選択される、請求項1に記載のシステム。
  3. 前記第1のテキストコーパスは、前記訓練の前に、少なくとも前記第1のテキストコーパス内の全ての単語を小文字に変換することによって前処理される、請求項1に記載のシステム。
  4. 前記第2のテキストコーパスは、前記再訓練の前に、コンテキスト化を実行することによって前処理され、前記コンテキスト化は、前記テキストコーパスを、各々が少なくとも2つの文を含むセグメントにセグメント化することを含む、請求項1に記載のシステム。
  5. 前記第2のテキストコーパスが、前記再訓練の前に、データ拡張を実行することによって前処理され、前記データ拡張は、前記会話音声内の1つ以上の先行する文、及び前記会話音声内の1つ以上の後続の文のうちの少なくとも1つを追加することによって前記セグメントの少なくともいくつかを延長することを含む、請求項1に記載のシステム。
  6. 前記予測することは、前記予測された句読点付け及び予測された大文字化の各々と関連付けられた信頼スコアを含み、前記ターゲットセット内の単語が前記セグメントのうちの2つ以上に含まれ、前記句読点付け又は大文字化に関する前記予測のうちの2つ以上を受け取るとき、前記2つ以上の予測と関連付けられた前記信頼スコアを平均化して、前記予測することの最終的な信頼スコアを生成する、請求項1に記載のシステム。
  7. 前記第2のテキストコーパスは、前記再訓練の前に、文末(EOS)埋め込みを含めることによって前処理される、請求項1に記載のシステム。
  8. 前記第2のテキストコーパス及び前記単語のターゲットセットは各々、少なくとも2人の参加者間の会話を表すトランスクリプトされたテキストを含み、前記少なくとも2人の参加者は、コールセンターのエージェント及び顧客である、請求項1に記載のシステム。
  9. 前記トランスクリプトすることは、テキスト検出、音声認識、及び音声テキスト化検出からなる群から選択される少なくとも1つの分析を含む、請求項8に記載のシステム。
  10. 方法であって、
    句読点付け及び大文字化されたテキストを含む第1のテキストコーパスを受け取ることと、
    前記第1のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、前記ラベルは、前記第1のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
    初期訓練段階において、第1の訓練セットに対して機械学習モデルを訓練することであって、前記第1の訓練セットは、
    (i)前記第1のテキストコーパス内の注釈付けされた前記単語と、
    (ii)前記ラベルと、を含む、訓練することと、
    会話音声を表す第2のテキストコーパスを受け取ることと、
    前記第2のテキストコーパス内の単語に前記ラベルのセットで注釈付けすることであって、前記ラベルは、前記第2のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
    再訓練段階において、第2の訓練セットに対して前記機械学習モデルを再訓練することであって、前記第2の訓練セットは、
    (iii)前記第2のテキストコーパス内の注釈付けされた前記単語と、
    (iv)前記ラベルと、を含む、再訓練することと、
    推論段階において、前記訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、前記ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を含む、方法。
  11. 句読点付けを示す前記ラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示す前記ラベルは、大文字化及びその他からなる群から選択される、請求項10に記載の方法。
  12. 前記第1のテキストコーパスは、前記訓練の前に、少なくとも前記第1のテキストコーパス内の全ての単語を小文字に変換することによって前処理される、請求項10に記載の方法。
  13. 前記第2のテキストコーパスは、前記再訓練の前に、コンテキスト化を実行することによって前処理され、前記コンテキスト化は、前記テキストコーパスを、各々が少なくとも2つの文を含むセグメントにセグメント化することを含む、請求項10に記載の方法。
  14. 前記第2のテキストコーパスが、前記再訓練の前に、データ拡張を実行することによって前処理され、前記データ拡張は、前記会話音声内の1つ以上の先行する文、及び前記会話音声内の1つ以上の後続の文のうちの少なくとも1つを追加することによって前記セグメントの少なくともいくつかを延長することを含む、請求項10に記載の方法。
  15. 前記予測することは、前記予測された句読点付け及び予測された大文字化の各々と関連付けられた信頼スコアを含み、前記ターゲットセット内の単語が前記セグメントのうちの2つ以上に含まれ、前記句読点付け又は大文字化に関する前記予測のうちの2つ以上を受け取るとき、前記2つ以上の予測と関連付けられた前記信頼スコアを平均化して、前記予測することの最終的な信頼スコアを生成する、請求項10に記載の方法。
  16. 前記第2のテキストコーパスは、前記再訓練の前に、文末(EOS)埋め込みを含めることによって前処理される、請求項10に記載の方法。
  17. プログラム命令が具現化されている非一時的コンピュータ可読記憶媒体を備える、コンピュータプログラム製品であって、前記プログラム命令は、少なくとも1つのハードウェアプロセッサによって、
    句読点付け及び大文字化されたテキストを含む第1のテキストコーパスを受け取ることと、
    前記第1のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、前記ラベルは、前記第1のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
    初期訓練段階において、第1の訓練セットに対して機械学習モデルを訓練することであって、前記第1の訓練セットは、
    (i)前記第1のテキストコーパス内の注釈付けされた前記単語と、
    (ii)前記ラベルと、を含む、訓練することと、
    会話音声を表す第2のテキストコーパスを受け取ることと、
    前記第2のテキストコーパス内の単語に前記ラベルのセットで注釈付けすることであって、前記ラベルは、前記第2のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
    再訓練段階において、第2の訓練セットに対して前記機械学習モデルを再訓練することであって、前記第2の訓練セットは、
    (iii)前記第2のテキストコーパス内の注釈付けされた前記単語と、
    (iv)前記ラベルと、を含む、再訓練することと、
    推論段階において、前記訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、前記ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を行うように実行可能である、コンピュータプログラム製品。
  18. 前記第1のテキストコーパスは、前記訓練の前に、少なくとも前記第1のテキストコーパス内の全ての単語を小文字に変換することによって前処理される、請求項17に記載のコンピュータプログラム製品。
  19. 句読点付けを示す前記ラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示す前記ラベルは、大文字化及びその他からなる群から選択される、請求項17に記載のコンピュータプログラム製品。
  20. 前記第2のテキストコーパスは、前記再訓練の前に、前記テキストコーパスを、各々が少なくとも2つの文を含むセグメントにセグメント化することを含む、コンテキスト化と、前記会話音声内の1つ以上の先行する文、及び前記会話音声内の1つ以上の後続の文のうちの少なくとも1つを追加することによって前記セグメントの少なくともいくつかを延長することを含む、データ拡張と、文末(EOS)埋め込みを含めることと、のうちの少なくとも1つを実行することによって前処理される、請求項17に記載のコンピュータプログラム製品。
  21. システムであって、
    少なくとも1つのハードウェアプロセッサと、
    プログラム命令を記憶した非一時的コンピュータ可読記憶媒体と、を備え、
    前記プログラム命令は、前記少なくとも1つのハードウェアプロセッサによって、
    マルチタスクニューラルネットワークの動作を実行するように実行可能であり、前記マルチタスクニューラルネットワークは、
    少なくとも1つの文を含むテキストコーパスを入力として受け取り、前記少なくとも1つの文中の各単語の大文字化を予測する大文字化予測ネットワークであって、第1の損失関数に基づいて訓練される大文字化予測ネットワークと、
    前記テキストコーパスを入力として受け取り、前記テキストコーパスに関する句読点付けを予測する句読点付け予測ネットワークであって、第2の損失関数に基づいて訓練される句読点付け予測ネットワークと、
    前記第1及び第2の損失関数を組み合わせるマルチタスク損失関数に基づいて、前記大文字化及び前記句読点付けの連携予測を出力する出力層と、を含み、
    前記大文字化予測ネットワーク及び前記句読点付け予測ネットワークは、連携して訓練される、システム。
  22. 前記プログラム命令は、推論段階において、前記マルチタスクニューラルネットワークを、会話音声を表す単語のターゲットセットに適用して、前記ターゲットセット内の各単語の句読点付け及び大文字化を予測するように更に実行可能である、請求項21に記載のシステム。
  23. 前記連携訓練は、初期訓練段階において、第1の訓練セットに対して、前記大文字化予測ネットワーク及び前記句読点付け予測ネットワークを連携して訓練することを含み、前記第1の訓練セットは、
    (i)句読点付け及び大文字化されたテキストを含む第1のテキストコーパスと、
    (ii)前記第1のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示すラベルと、を含む、請求項21に記載のシステム。
  24. 前記連携訓練は、再訓練段階において、第2の訓練セットに対して、前記大文字化予測ネットワーク及び前記句読点付け予測ネットワークを連携して訓練することを更に含み、前記第2の訓練セットは、
    (iii)会話音声を表す第2のテキストコーパスと、
    (iv)前記第2のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示すラベルと、を含む、請求項23に記載のシステム。
  25. 句読点付けを示す前記ラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示す前記ラベルは、大文字化及びその他からなる群から選択される、請求項24に記載のシステム。
  26. 前記第1のテキストコーパスは、前記訓練の前に、少なくとも前記第1のテキストコーパス内の全ての単語を小文字に変換することによって前処理される、請求項24に記載のシステム。
  27. 前記第2のテキストコーパスは、前記再訓練の前に、コンテキスト化を実行することによって前処理され、前記コンテキスト化は、前記テキストコーパスを、各々が少なくとも2つの文を含むセグメントにセグメント化することを含む、請求項24に記載のシステム。
  28. 前記第2のテキストコーパスは、前記再訓練の前に、データ拡張を実行することによって前処理され、前記データ拡張は、前記会話音声内の1つ以上の先行する文、及び前記会話音声内の1つ以上の後続の文のうちの少なくとも1つを追加することによって前記セグメントの少なくともいくつかを延長することを含む、請求項24に記載のシステム。
  29. 前記第2のテキストコーパスは、前記再訓練の前に、文末(EOS)埋め込みを含めることによって前処理される、請求項24に記載のシステム。
JP2023538022A 2020-12-28 2021-12-23 音声認識トランスクリプトの句読点付け及び大文字化 Pending JP2024502946A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/135,283 US11645460B2 (en) 2020-12-28 2020-12-28 Punctuation and capitalization of speech recognition transcripts
US17/135,283 2020-12-28
PCT/US2021/065040 WO2022146861A1 (en) 2020-12-28 2021-12-23 Punctuation and capitalization of speech recognition transcripts

Publications (1)

Publication Number Publication Date
JP2024502946A true JP2024502946A (ja) 2024-01-24

Family

ID=80113428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023538022A Pending JP2024502946A (ja) 2020-12-28 2021-12-23 音声認識トランスクリプトの句読点付け及び大文字化

Country Status (8)

Country Link
US (1) US11645460B2 (ja)
EP (1) EP4268115A1 (ja)
JP (1) JP2024502946A (ja)
CN (1) CN116745771A (ja)
AU (1) AU2021416089A1 (ja)
CA (1) CA3203078A1 (ja)
CO (1) CO2023009697A2 (ja)
WO (1) WO2022146861A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220272124A1 (en) * 2021-02-19 2022-08-25 Intuit Inc. Using machine learning for detecting solicitation of personally identifiable information (pii)
KR20240034470A (ko) * 2022-09-07 2024-03-14 삼성전자주식회사 음성 인식 모델을 학습시키기 위한 전자 장치 및 이의 제어 방법
CN115687935A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 语音识别的后处理方法、装置、设备及存储介质
CN116386613B (zh) * 2023-06-05 2023-07-25 成都启英泰伦科技有限公司 一种用于命令词语音增强的模型训练方法
CN117113941B (zh) * 2023-10-23 2024-02-06 新声科技(深圳)有限公司 标点符号恢复方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922809B2 (en) * 2001-01-25 2005-07-26 International Business Machines Corporation Method and apparatus providing capitalization recovery for text
US10191654B2 (en) * 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US11087210B2 (en) * 2017-08-18 2021-08-10 MyFitnessPal, Inc. Context and domain sensitive spelling correction in a database
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11017778B1 (en) * 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US11556709B2 (en) * 2020-05-19 2023-01-17 International Business Machines Corporation Text autocomplete using punctuation marks

Also Published As

Publication number Publication date
CO2023009697A2 (es) 2023-10-09
CN116745771A (zh) 2023-09-12
WO2022146861A1 (en) 2022-07-07
CA3203078A1 (en) 2022-07-07
US20220208176A1 (en) 2022-06-30
US11645460B2 (en) 2023-05-09
EP4268115A1 (en) 2023-11-01
AU2021416089A1 (en) 2023-07-06

Similar Documents

Publication Publication Date Title
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
Haeb-Umbach et al. Far-field automatic speech recognition
US10347244B2 (en) Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US11645460B2 (en) Punctuation and capitalization of speech recognition transcripts
US7904399B2 (en) Method and apparatus for determining decision points for streaming conversational data
US11170168B2 (en) Unsupervised adaptation of sentiment lexicon
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
WO2023020262A1 (en) Integrating dialog history into end-to-end spoken language understanding systems
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
Nasereddin et al. Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation
Kopparapu Non-linguistic analysis of call center conversations
CN114330371A (zh) 基于提示学习的会话意图识别方法、装置和电子设备
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
Abougarair et al. Design and implementation of smart voice assistant and recognizing academic words
CN114416989A (zh) 一种文本分类模型优化方法和装置
CN117980991A (zh) 利用约束谱聚类的基于说话者转换的在线说话者日志化
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
US11615787B2 (en) Dialogue system and method of controlling the same
Masumura et al. Improving speech-based end-of-turn detection via cross-modal representation learning with punctuated text data
CN115273862A (zh) 语音处理的方法、装置、电子设备和介质
Anidjar et al. A thousand words are worth more than one recording: Nlp based speaker change point detection
Thakur et al. NLP & AI speech recognition: an analytical review
Campos-Soberanis et al. Improving a conversational speech recognition system using phonetic and neural transcript correction
Masumura et al. Large-context conversational representation learning: Self-supervised learning for conversational documents
US20230298615A1 (en) System and method for extracting hidden cues in interactive communications

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20230724