JP2024502946A

JP2024502946A - 音声認識トランスクリプトの句読点付け及び大文字化

Info

Publication number: JP2024502946A
Application number: JP2023538022A
Authority: JP
Inventors: アブラハムファイザコフ，; アーノンマッツア，; レフハイキン，; エヤルオーバッハ，
Original assignee: ジェネシスクラウドサービシーズインコーポレイテッド
Priority date: 2020-12-28
Filing date: 2021-12-23
Publication date: 2024-01-24
Also published as: CA3203078A1; EP4268115A1; CN116745771A; US11645460B2; AU2021416089A1; WO2022146861A1; CO2023009697A2; US20220208176A1; AU2021416089A9

Abstract

方法であって、句読点付け及び大文字化されたテキストを含む第１のテキストコーパスを受け取ることと、第１のテキストコーパス内の単語に、各単語の句読点付け及び大文字表記を示すラベルのセットで注釈付けすることと、初期訓練段階において、（ｉ）第１のテキストコーパス内の注釈付けされた単語と、（ｉｉ）ラベルを含む第１の訓練セットに対して機械学習モデルを訓練することと、会話音声を表す第２のテキストコーパスを受け取ることと、第２のテキストコーパス内の単語にラベルのセットで注釈付けすることと、再訓練段階において、（ｉｉｉ）第２のテキストコーパス内の注釈付けされた単語と、（ｉｖ）ラベルと、を含む、第２の訓練セットに対して、機械学習モデルを再訓練することと、推論段階において、訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を含む、方法。【選択図】図１

Description

（関連出願の相互参照及び優先権の主張）
本出願は、２０２０年１２月２８日に出願された「ＰＵＮＣＴＵＡＴＩＯＮＡＮＤＣＡＰＩＴＡＬＩＺＡＴＩＯＮＯＦＳＰＥＥＣＨＲＥＣＯＧＮＩＴＩＯＮＴＲＡＮＳＣＲＩＰＴＳ」と題する米国特許出願第１７／１３５，２８３号の優先権を主張する。

コールセンター分析において、音声認識は、これらの変換の分析における第１のステップとして、例えば、重要なコールイベント、クライアント感情を検出するために、又は会話の内容を要約するために、エージェントと顧客との間の会話をトランスクリプトするために使用される。コールセンターにおける電話内容の自動トランスクリプトのための別の一般的な使用事例は、例えば、監督者によって電話内容品質制御を実行することである。

従来、音声認識結果は、テキストの句読点付け及び大文字化を含まない。結果として、自動的に生成されたトランスクリプトは、より頻繁に句読点付け及び大文字化される人間が生成したトランスクリプトよりも判読しにくい。

認識されたテキストが下流の自然言語処理（natural language processing、ＮＬＰ）アプリケーションによって更に処理される場合、より判読しやすいことに加えて、句読点付け及び大文字化が重要である。例えば、名前付きエンティティ認識装置は、それらのエンティティを認識しやすくする名前及び場所の大文字化から明らかに利益を得る。

関連技術の前述の例及びそれに関連する制限は、例解的であることが意図され、排他的ではない。関連技術の他の制限は、本明細書を読み、図面を検討することによって当業者に明らかになるであろう。

以下の実施形態及びその態様は、範囲を限定するものではなく、例示的かつ例解的であることが意図されるシステム、ツール、及び方法と併せて説明及び例解される。

一実施形態では、システムであって、少なくとも１つのハードウェアプロセッサと、プログラム命令を記憶した非一時的コンピュータ可読記憶媒体と、を備え、プログラム命令は、少なくとも１つのハードウェアプロセッサによって、句読点付け及び大文字化されたテキストを含む第１のテキストコーパスを受け取ることと、第１のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第１のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、初期訓練段階において、第１の訓練セットに対して機械学習モデルを訓練することであって、第１の訓練セットは、（ｉ）第１のテキストコーパス内の注釈付けされた単語と、（ｉｉ）ラベルと、を含む、訓練することと、会話音声を表す第２のテキストコーパスを受け取ることと、第２のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第２のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、再訓練段階において、第２の訓練セットに対して機械学習モデルを再訓練することであって、第２の訓練セットは、（ｉｉｉ）第２のテキストコーパス内の注釈付けされた単語と、（ｉｖ）ラベルと、を含む、再訓練することと、推論段階において、訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を行うように実行可能なプログラム命令である、システムが提供される。

一実施形態では、方法であって、句読点付け及び大文字化されたテキストを含む第１のテキストコーパスを受け取ることと、第１のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第１のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、初期訓練段階において、第１の訓練セットに対して機械学習モデルを訓練することであって、第１の訓練セットは、（ｉ）第１のテキストコーパス内の注釈付けされた単語と、（ｉｉ）ラベルと、を含む、訓練することと、会話音声を表す第２のテキストコーパスを受け取ることと、第２のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第２のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、再訓練段階において、第２の訓練セットに対して機械学習モデルを再訓練することであって、第２の訓練セットは、（ｉｉｉ）第２のテキストコーパス内の注釈付けされた単語と、（ｉｖ）ラベルと、を含む、再訓練することと、推論段階において、訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を含む、方法もまた提供される。

一実施形態では、プログラム命令が具現化されている非一時的コンピュータ可読記憶媒体を備える、コンピュータプログラム製品であって、プログラム命令は、少なくとも１つのハードウェアプロセッサによって、句読点付け及び大文字化されたテキストを含む第１のテキストコーパスを受け取ることと、第１のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第１のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、初期訓練段階において、第１の訓練セットに対して機械学習モデルを訓練することであって、第１の訓練セットは、（ｉ）第１のテキストコーパス内の注釈付けされた単語と、（ｉｉ）ラベルと、を含む、訓練することと、会話音声を表す第２のテキストコーパスを受け取ることと、第２のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、ラベルは、第２のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、再訓練段階において、第２の訓練セットに対して機械学習モデルを再訓練することであって、第２の訓練セットは、（ｉｉｉ）第２のテキストコーパス内の注釈付けされた単語と、（ｉｖ）ラベルと、を含む、再訓練することと、推論段階において、訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を行うように実行可能である、コンピュータプログラム製品が更に提供される。

いくつかの実施形態では、句読点付けを示すラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示すラベルは、大文字化及びその他からなる群から選択される。

いくつかの実施形態では、第１のテキストコーパスは、訓練の前に、少なくとも第１のテキストコーパス内の全ての単語を小文字に変換することによって前処理される。

いくつかの実施形態では、第２のテキストコーパスは、再訓練の前に、コンテキスト化を実行することによって前処理され、コンテキスト化は、テキストコーパスを、各々が少なくとも２つの文を含むセグメントにセグメント化することを含む。

いくつかの実施形態では、第２のテキストコーパスが、再訓練の前に、データ拡張を実行することによって前処理され、データ拡張は、会話音声内の１つ以上の先行する文、及び会話音声内の１つ以上の後続の文のうちの少なくとも１つを追加することによってセグメントの少なくともいくつかを延長することを含む。

いくつかの実施形態では、予測することは、予測された句読点付け及び予測された大文字化の各々と関連付けられた信頼スコアを含み、ターゲットセット内の単語がセグメントのうちの２つ以上に含まれ、句読点付け又は大文字化に関する予測のうちの２つ以上を受け取るとき、２つ以上の予測と関連付けられた信頼スコアを平均化して、予測することの最終的な信頼スコアを生成する。

いくつかの実施形態では、第２のテキストコーパスは、再訓練の前に、文末（end-of-sentence、ＥＯＳ）埋め込みを含めることによって前処理される。

いくつかの実施形態では、第２のテキストコーパス及び単語のターゲットセットは各々、少なくとも２人の参加者間の会話を表すトランスクリプトされたテキストを含み、少なくとも２人の参加者は、コールセンターのエージェント及び顧客である。

いくつかの実施形態では、トランスクリプトすることは、テキスト検出、音声認識、及び音声テキスト化検出からなる群から選択される少なくとも１つの分析を含む。

一実施形態では、システムであって、少なくとも１つのハードウェアプロセッサと、プログラム命令を記憶した非一時的コンピュータ可読記憶媒体と、を備え、プログラム命令は、少なくとも１つのハードウェアプロセッサによって、マルチタスクニューラルネットワークの動作を実行するように実行可能であり、マルチタスクニューラルネットワークは、少なくとも１つの文を含むテキストコーパスを入力として受け取り、少なくとも１つの文中の各単語の大文字化を予測する大文字化予測ネットワークであって、第１の損失関数に基づいて訓練される大文字化予測ネットワークと、テキストコーパスを入力として受け取り、テキストコーパスに関する句読点付けを予測する句読点付け予測ネットワークであって、第２の損失関数に基づいて訓練される句読点付け予測ネットワークと、第１及び第２の損失関数を組み合わせるマルチタスク損失関数に基づいて、大文字化及び句読点付けの連携予測を出力する出力層と、を含み、大文字化予測ネットワーク及び句読点付け予測ネットワークは、連携して訓練される、システムが更に提供される。

いくつかの実施形態では、プログラム命令は、推論段階において、マルチタスクニューラルネットワークを、会話音声を表す単語のターゲットセットに適用して、ターゲットセット内の各単語の句読点付け及び大文字化を予測するように更に実行可能である。

いくつかの実施形態では、連携訓練は、初期訓練段階において、第１の訓練セットに対して、大文字化予測ネットワーク及び句読点付け予測ネットワークを連携して訓練することを含み、第１の訓練セットは、（ｉ）句読点付け及び大文字化されたテキストを含む第１のテキストコーパスと、（ｉｉ）第１のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示すラベルと、を含む。

いくつかの実施形態では、連携訓練は、再訓練段階において、第２の訓練セットに対して、大文字化予測ネットワーク及び句読点付け予測ネットワークを連携して訓練することを更に含み、第２の訓練セットは、（ｉ）会話音声を表す第２のテキストコーパスと、（ｉｉ）第２のテキストコーパス内の単語の各々と関連付けられた句読点付け及び大文字表記を示すラベルと、を含む。

いくつかの実施形態では、第２のテキストコーパスは、再訓練の前に、文末（ＥＯＳ）埋め込みを含めることによって前処理される。

上で説明される例示的な態様及び実施形態に加えて、更なる態様及び実施形態が、図面を参照し、以下の詳細な説明を検討することによって明らかになるであろう。

例示的な実施形態が、参照される図に例解される。図に示される構成要素及び特徴の寸法は、概して、提示の便宜及び明確さのために選択され、必ずしも縮尺通りに示されていない。図面を以下に列挙する。
いくつかの実施形態による、句読点付け及び大文字化を連携して予測するためのモデルを概略的に例解する。いくつかの実施形態による、トランスクリプトされたテキストにおける句読点付け及び大文字化の自動予測のための機械学習モデルを生成するための訓練のための本開示のプロセスである機能ステップのフローチャートである。いくつかの実施形態による、本開示の１つ以上の機械学習訓練データセットを構築することと併せたデータ処理ステップの概略例解図である。いくつかの実施形態による、本開示の機械学習モデルのコンテキストにおいて採用され得る、文末埋め込みを含むニューラルネットワーク構造の概略例解図である。いくつかの実施形態による、句読点付け及び大文字化を連携して予測するためのニューラルネットワーク構造の概略例解図である。

本明細書では、トランスクリプトされたテキストにおける句読点付け及び大文字化の自動予測のための方法、システム、及びコンピュータプログラム製品が開示される。いくつかの実施形態では、本開示は、特に、例えば、コンタクトセンター対話の自動トランスクリプションのコンテキストにおいて、会話音声トランスクリプションの自動句読点付け及び大文字化に特に好適である。

自動音声認識（automatic speech recognition、ＡＳＲ）システムは、音声コマンド、音声アシスタント、ディクテーションツール、会話トランスクライバなどの様々なアプリケーションにおいて広く採用されつつある。多くのＡＳＲにおいて、重大な制限は、トランスクリプトされたテキストの句読点付け又は大文字化がないことである。これが問題となる可能性があるのは、出力を視覚的に提示する場合に、句読点付けされていないトランスクリプトは、読むこと及び理解することがより困難であることと、これらのトランスクリプトが、自然言語処理（ＮＬＰ）の領域におけるタスクなどの下流タスクのための入力として使用されるときである。例えば、一般的なＮＬＰシステムは、通常、句読点付けされたテキストに対して訓練され、したがって、句読点付けの欠如は、システムの性能の著しい劣化を引き起こす可能性がある。

典型的には、句読点付け及び大文字化のタスクは、教師あり機械学習方法を使用して解決される。そのようなモデルは、特徴のセット、例えば、テキスト自体、話者入力指示、及び／又はタイミング入力を使用してテキスト句読点付けを予測するための機械学習モデルを訓練するために、トランスクリプトされ、句読点付けされた音声コーパスを使用し得る。他のアプローチは、シーケンス間ネットワークアーキテクチャに依存し得、この場合、入力は、小文字の句読点付けされていない単語のシーケンスであり、出力は、訂正された大文字／小文字及び句読点付けが挿入されたシーケンスである。

いくつかの実施形態では、本開示は、自動トランスクリプトに句読点付け及び大文字化を追加することを提供し、これは、例えば、顧客とエージェントとの間の往復ダイアログを表す、マルチターンコールセンター会話のトランスクリプトと併せて使用するのに特に好適であり得る。

いくつかの実施形態では、本開示は、２段階訓練プロセスを使用して訓練された教師付き機械学習モデルを提供し、（ｉ）第１のステップは、提供されたコーパスから、例えば、インターネットテキスト等の容易に利用可能かつ経済的なソースから、大量の句読点付け及び大文字化されたテキストを使用し、（ｉｉ）第２のステップは、句読点付け及び大文字化のために注釈付けされた比較的少量のダイアログトランスクリプトを使用するが、これは、手動注釈付けコストのため、取得するのによりコストがかかる。いくつかの実施形態では、第２の訓練ステップは、訓練データセット内のテキストに関するコンテキスト情報を提供する、素材拡張機構を採用する。いくつかの実施形態では、素材拡張はまた、文末埋め込みを採用し得る。

いくつかの実施形態では、本機械学習モデルは、マルチタスク訓練のために構成された一意的なニューラルネットワークアーキテクチャに基づく。マルチタスク学習又は訓練は、複数の学習タスクが同時に解決される一方で、タスクにわたる共通性を活用する機械学習タスクのカテゴリである。これにより、モデルを別々に訓練する場合と比較して、タスク固有モデルの学習効率及び予測精度を向上させることができる。マルチタスク機械学習モデルは、共有表現を使用しながら、２つ以上のタスクを並行して学習し、各タスクについて学習されるものは、他のタスクがより良く学習されるのを助けることができる。分類コンテキストでは、マルチタスク学習は、複数の分類タスクを連携して学習することによってそれらタスクの性能を改善することを目的とする。

したがって、いくつかの実施形態では、本開示は、大文字化及び句読点付けを連携して学習するように構成されたニューラルネットワークアーキテクチャを使用する機械学習モデルを提供し、連携学習は、別々の大文字化及び句読点付けモデルに対して潜在的な情報利得を提供する。いくつかの実施形態では、そのような機械学習モデルは、２つの学習タスク間の強い相互依存性を活用する。例えば、大文字化された単語は、ピリオドの後に来ることが多く、疑問符やピリオドなどの句読点付け情報は、次の単語が大文字化されるべきであることを示すことがある。

いくつかの実施形態では、本開示は、（ｉ）句読点付け及び大文字化された一般テキストと、（ｉｉ）句読点付け及び大文字化のために注釈付けされたドメイン内マルチターンダイアログと、を含む、訓練コーパスを使用して、連携モデルを訓練することを提供する。いくつかの実施形態では、連携機械学習モデルは、複数の別個の機械学習タスクを実行し、連携モデルは、ターゲット単語又はトークンの大文字化ラベルを予測する大文字化機械学習分類器と、句読点付けラベルを予測する句読点付け機械学習モデルと、を備える。

図１に概略的に例解されるように、いくつかの実施形態では、本開示は、句読点付け及び大文字化を連携して予測するための単一の機械学習モデルを提供し、モデルの損失関数は、各タスクを最適に重み付けする。単一のモデルを使用することによって、本開示は、例えば、大文字化が近辺の句読点付け予測の結果に依存し得るとき、より一貫した出力及び改善された精度を提供する。加えて、両方のタスクを単一のモデルに組み合わせることは、低減された計算オーバーヘッド及びより良好なモデル性能を提供し得る。

いくつかの実施形態では、本開示は、観測値のシーケンスの各メンバーへのクラスラベルの自動割り当てを含むパターン認識タスクのタイプとして定義されるシーケンスタグ付けを使用する。

音声認識のコンテキストでは、シーケンスタグ付けは、品詞タグ付け（part-of-speech、ＰＯＳタグ付け）を含み得、これは、テキスト内の単語を、その定義及びそのコンテキストの両方、例えば、名詞、動詞、形容詞、副詞などとしての文中の単語の識別に基づいて、特定の品詞に対応するものとしてマーク付けするプロセスである。シーケンスタグ付けはまた、チャンキング及び固有表現認識（named entity recognition、ＮＥＲ）などの他のＮＬＰタスクを含み得る。

ほとんどのシーケンスラベルアルゴリズムは、本質的に確率的であり、最良のシーケンスを見出すための統計的推論に依存する。シーケンスラベリングに使用される最も一般的な統計モデルは、マルコフ仮定、すなわち、特定の単語に対するラベルの選択が直接隣接するラベルのみに直接依存するという仮定、を行う。したがって、ラベルのセットはマルコフ連鎖を形成する。これは、シーケンスラベリングに使用される最も一般的な統計モデルの１つである隠れマルコフモデル（hidden Markov model、ＨＭＭ）に自然につながる。使用されている他の一般的なモデルは、最大エントロピーマルコフモデル及び条件付き確率場である。

いくつかの実施形態では、本開示は、シーケンスタグ付けタスクを実行するように訓練された１つ以上のニューラルネットワークベースの機械学習モデルを提供する。いくつかの実施形態では、これらのモデルは、１つ以上の長短期記憶（Long Short-Term Memory、ＬＳＴＭ）ネットワーク、双方向ＬＳＴＭネットワーク（bidirectional LSTM、ＢｉＬＳＴＭ）、ＣＲＦ層を有するＬＳＴＭネットワーク（LSTM networks with a CRF layer、ＬＳＴＭ－ＣＲＦ）、及び／又は条件付き確率場（Conditional Random Field、ＣＲＦ）層を有する双方向ＬＳＴＭネットワーク（bidirectional LSTM networks with a Conditional Random Field、ＢＩＬＳＴＭ－ＣＲＦ）を含み得る。

いくつかの実施形態では、本開示の訓練された機械学習モデルは、入力として単語のシーケンスを受け取り、シーケンス内の単語ごとに、句読点付けタグのセットから予測句読点付けタグを出力するように構成され得、句読点付けタグは、単語に関して実行される句読点付けアクションを示し、例えば、以下の通りである。

いくつかの実施形態では、本開示の訓練された機械学習モデルは、入力として単語のシーケンスを受け取り、シーケンス内の単語ごとに、大文字化タグの閉じたセットからこの単語の予測された大文字化タグを出力するように構成され得、大文字化タグは、単語に関して実行される大文字化アクションを示し、例えば、以下の通りである。

図２Ａは、いくつかの実施形態による、トランスクリプトされたテキストにおける句読点付け及び大文字化の自動予測のための機械学習モデルを生成するための訓練のための本開示のプロセスである機能ステップのフローチャートである。

図２Ｂは、いくつかの実施形態による、本開示の１つ以上の機械学習訓練データセットを構築することと併せたデータ処理ステップの概略例解図である。

いくつかの実施形態では、ステップ２００において、本開示の第１の訓練データセットは、例えば、利用可能なプロプライエタリソース及び／又はパブリックソースから提供された一般テキストのコーパスを使用して生成され得る。いくつかの実施形態では、提供されるテキストは、句読点付け及び大文字化されたテキストである。いくつかの実施形態では、提供されたテキストは、対応する句読点付け及び大文字注釈で注釈付けされ、注釈付けは、注釈専門家によって手動で実行され得る。

いくつかの実施形態では、提供されたコーパスは、例えば、言語及び／又は他の基準に基づくフィルタリングによって、テキストのサブセットを抽出するために、選択及び／又はフィルタリングを受ける。いくつかの実施形態では、このステップは、ノイズ及び無関係な素材を除去し、これは、訓練をより高速にし、ノイズの悪影響を受けにくくするのに役立つ。

いくつかの実施形態では、本開示は、音声認識言語モデルを使用する言語モデリングアプローチを使用して、提供されたコーパスから関連サブセットを選択し、モデルは、入力文がドメイン固有（例えば、コールセンター）音声に適用された音声認識プロセスの結果である確率を予測する。いくつかの実施形態では、本開示は、単語カウントモデルを使用し得、提供されたコーパス内の各文に対して、モデルは、文中の単語のうちのいくつが既知の辞書（例えば、典型的なコールセンター語彙を含むドメイン固有のひずみ）内のエントリに一致するかをカウントし、指定された閾値（例えば、８０％）を上回る語彙内単語を含む文のみを選択し得る。

いくつかの実施形態では、ステップ２０２において、提供されたテキストコーパスは、例えば、コーパス内のテキストを正規化及び／又は標準化するために、前処理され得る。例えば、前処理を適用して、全ての単語を小文字に変換し、かつ／又は対応する句読点付けタグ及び大文字化タグで各単語にタグ付けし得る。例えば、いくつかの実施形態では、「Ｈｉ，ｈｏｗｃａｎＩｈｅｌｐｙｏｕ？」という文は、以下のように変換され得る。

いくつかの実施形態では、本開示の前処理段階は、文のコーパスを生成し得、コーパス内の全てのエンティティ（単語）は、一様に（例えば、小文字で）提示される。

いくつかの実施形態では、ステップ２０４において、第１の訓練データセットは、本開示の機械学習モデルの予備訓練を実行するために使用され得る。いくつかの実施形態では、例えば、第１の訓練データセットに対して訓練された、本開示の予備的に訓練された機械学習モデルは、トランスクリプトされたテキスト、例えば、公的に利用可能なコーパスからのテキストにおける、句読点付け及び大文字化を予測するように構成され得る。

いくつかの実施形態では、ステップ２０６において、本開示の第２の訓練データセットは、会話音声を含むドメイン固有テキストコーパスを使用して、例えば、コールセンター会話トランスクリプトを使用して、構築され得る。いくつかの実施形態では、会話音声コーパスは、マルチターンダイアログ、例えば、顧客とエージェントとの間の往復ダイアログを特徴とする２人以上の参加者間の会話を含み得る。

いくつかの実施形態では、ドメイン固有会話音声コーパスは、例えば、記録された音声会話の手動トランスクリプトを使用して、記録された会話から取得され得る。いくつかの実施形態では、ドメイン固有会話音声コーパスは、記録されたれた音声会話を認識するための自動音声認識（ＡＳＲ）を使用して、記録された会話から取得され得る。

いくつかの実施形態では、ドメイン固有会話音声コーパスは、例えば、手動で、句読点付け及び大文字化され得る。いくつかの実施形態では、ドメイン固有会話音声コーパスは、対応する句読点付け及び大文字注釈で注釈付けされ得、注釈付けは、注釈専門家によって手動で実行され得る。

いくつかの実施形態では、ドメイン固有会話音声コーパスは、以下のうちの１つ以上を含み得る。
・音声は、マルチモーダルソース、例えば、音声会話、タイプされたチャット、テキストメッセージング、電子メール会話などからのものであり得る。
・音声は、少なくとも２つの側の間、例えば、エージェントと顧客との間の対話を含み得る。
・音声は、様々な長さの会話、及び／又は会話の断片及び部分を反映し得る。

いくつかの実施形態では、提供されたテキストの会話音声コーパスは、対応する句読点付け及び大文字注釈で注釈付けされ、注釈付けは、注釈専門家によって手動で実行され得る。

いくつかの実施形態では、ステップ２０８において、会話音声コーパスは、例えば、テキストを正規化及び／又は標準化することによって、第１の訓練データセット内の一般テキスト（上記参照）と同様の方法で前処理され得る。例えば、前処理を適用して、全ての単語を小文字に変換し、かつ／又は対応する句読点付けタグ及び大文字化タグで各単語にタグ付けし得る。

いくつかの実施形態では、ステップ２１０において、コンテキスト化及び／又はデータ拡張を使用して、会話音声コーパスから取得された訓練データを強化し得る。

いくつかの実施形態では、会話音声コーパスは、例えば、句読点付けがコンテキスト依存であり得るという事実を認識して、コンテキスト化され得る。例えば、独立したシーケンスとして、「Ｔａｋｅｓａｍｏｎｔｈｔｏｇｅｔｔｈｅｒｅ」という発話が質問であるのか、ステートメントであるのかを知ることは不可能である。しかしながら、そのコンテキスト（例えば、先行する及び／又は後続する発話）を考慮すると、その目的が明らかになる可能性がある。以下は、句読点付けがコンテキスト依存であり得る単語シーケンスを含む会話音声の例である。

したがって、いくつかの実施形態では、本開示は、例えば、各々が複数の文を含む会話訓練セグメントを生成することによって、ドメイン固有の会話音声をコンテキスト化することを提供する。いくつかの実施形態では、そのような会話音声セグメントは、例えば、１つ以上のルールに従って会話音声コーパスをセグメント化することによって作成され得る。例えば、会話が１２個の文［Ｓ_１，Ｓ_２，．．．，Ｓ_１２］を含むとき、セグメント化ルールは、訓練セグメントが以下のようになるように、会話を４文セグメントにセグメント化することを提供し得る。

Ｅ_３＝［Ｓ_９，Ｓ_１０，Ｓ_１０，Ｓ_１２］

他の実施形態では、追加の及び／又は他のセグメント化及び／又は連結規則が適用され、例えば、より多くの又はより少ない文を会話型訓練セグメントに連結し得る。

しかしながら、すぐ上に示したような文の連結及び／又はセグメント化の潜在的な欠点は、各会話型訓練セグメント内の端の文、例えば、セグメントＥ_２内の文Ｓ_５及びセグメントＥ_３内の文Ｓ_９は、先行するテキストデータを使用して適切にコンテキスト化することができず、一方、セグメントＥ_１内の文Ｓ_４及びセグメントＥ_２内のＳ_８は、例えば、後続のテキストデータを使用して適切にコンテキスト化することができない。（Ｓ_１はもちろん、前にコンテキストを有することはできない）。

したがって、いくつかの実施形態では、ステップ２１０において、本開示は、データ拡張を提供し、データ拡張機構は、例えば、会話からの先行及び後続のダイアログを使用して、各文を両方向に拡大するように構成される。例えば、本開示のデータ拡張アルゴリズムは、結果が、許容可能性の指定の基準、例えば、単語数及び／又は話者数最小値を満たすまで、先行する文及び／又は後続の文を所与の第１の文に反復的に追加するように構成され得る。

いくつかの実施形態では、本開示のデータ拡張アルゴリズムは、以下を含み得る。

いくつかの実施形態では、ａｄｄ＿ｓｅｎｔｅｎｃｅ論理は、会話内の文インデックスに従って、例文の接頭辞又は接尾辞のいずれかとして、新しい文を追加する単純な論理である。

許容可能な例は、例えば、単語数及び／又は話者数の最小値を満たすなど、何らかの指定された規則に従う例であろう。例えば、許容可能な例は、少なくとも２人の話者及び少なくとも２５個の単語を有することが必要とされ得る。

このアルゴリズムを使用して、１２個の文Ｃ＝［Ｓ_１，Ｓ_２，．．．，Ｓ_１２］を有する同じ会話は、ここで、次のようにセグメント化することができる。

ここで、セグメント間の重複及び各セグメントの長さは動的であり、アルゴリズムによって決定され、会話内の各文は、２つ以上のコンテキストで使用することができ、通常は使用される。

いくつかの実施形態では、ステップ２１２において、本開示は、訓練データセットにおける文末（ＥＯＳ）埋め込みを提供する。単一の文を含む訓練セグメントに注目すると、ニューラルネットワークへの入力を表すことは些細なことであり、標準的な１－ｈｏｔ表現を使用して行うことができ、ここで、全ての単語は、語彙のサイズでベクトル内のインデックスを取得し、単語は、シーケンス内で１つずつ入力される。しかしながら、複数の文が訓練例に含まれる場合、失われる可能性がある重要な情報、例えば、どれが全ての文の最後の単語であるか、がある。文中の最後の単語にはほとんど常にピリオド又は疑問符が続き、それに続く単語は常に大文字化されるので、この情報は句読点付け及び大文字化の両方にとって重要である。

したがって、いくつかの実施形態では、本開示は、複数の連結された文を含む訓練例にＥＯＳデータを埋め込むことを提供する。いくつかの実施形態では、ＥＯＳ埋め込みは、単語が文の「中」にあるか、又は文の「終わり」にあるかに関する指示を含み得る。例えば、上記で提示された短いダイアログ

は、ニューラルネットワークの単一の訓練例として、以下のようになる。

追加のＥＯＳ入力は、機械学習モデルが単語「ｉｎ」及び「ｔｈｅｒｅ」の後の句読点記号を予測するのを助け、モデルが単語「ｔａｋｅｓ」を大文字化するのを助ける。

図３は、本開示の機械学習モデルのコンテキストにおいて採用され得る、ニューラルネットワーク構造の概略例解図である。図から分かるように、ＥＯＳ埋め込みの追加は、この特徴に、単語埋め込みに対してかなりの重みを与える。いくつかの実施形態では、ＥＯＳ特徴の埋め込みは、例えば、単語埋め込みの埋め込みサイズの１０％である３０の埋め込みサイズを表し得る。本発明者らは、ＥＯＳ埋め込みとともにデータ拡張を使用することが、正確に予測するのに最も厳格なものである、疑問符及びカンマの分類において約１０％の改善をもたらすことを見出した。

いくつかの実施形態では、ステップ２１４において、第２の訓練データセットは、本開示の機械学習モデルを再訓練するために使用され得る。

いくつかの実施形態では、ステップ２１６において、本開示の訓練された機械学習モデルを、例えば認識された会話音声を含むターゲットデータに適用して、音声に含まれる単語の句読点付け及び大文字化を予測し得る。

いくつかの実施形態では、本開示の機械学習モデルは、マルチタスク／多目的分類及び予測のために構成されたニューラルネットワーク構造を採用し得る。

背景として、分類タスクは典型的には、一度に１つずつ処理される。したがって、句読点付け及び大文字化タスクを実行するために、典型的には、２つのシーケンスタグ付け機械学習モデルを訓練する必要がある。

逆に、本開示は、マルチタスク学習を使用して、２つ以上のタスクを同時に実行するように訓練された単一の機械学習モデルを生成する。１つのモデルのみを訓練（オフラインプロセス）及び推論（生産におけるオンラインプロセス）しなければならないという明らかな利益に加えて、単一モデルはまた、潜在的な情報利益を有する。大文字化使用ネットワークを訓練する大文字化情報は、大文字化された単語はピリオドの後に来ることが多い、というタスク間の強い依存性のために、理論的には句読点付け訓練に寄与し得る。同様に、疑問符及びピリオドのような句読点付け情報は、次の単語が大文字化されるネットワークを訓練する。

したがって、いくつかの実施形態では、本開示は、図４に概略的に例解されるようなネットワークアーキテクチャを採用する。いくつかの実施形態では、図４に示される例示的なニューラルネットワーク構造は、本開示の機械学習モデルが句読点付け及び大文字化を連携して学習することを可能にする。

いくつかの実施形態では、本開示は、シーケンスタグ付けタスクを実行するように訓練された１つ以上のニューラルネットワークベースの機械学習モデルを提供する。いくつかの実施形態では、これらのモデルは、１つ以上の長短期記憶（ＬＳＴＭ）ネットワーク、双方向ＬＳＴＭネットワーク（ＢｉＬＳＴＭ）、ＣＲＦ層を有するＬＳＴＭネットワーク（ＬＳＴＭ－ＣＲＦ）、及び／又は条件付き確率場（ＣＲＦ）層を有する双方向ＬＳＴＭネットワーク（ＢＩＬＳＴＭ－ＣＲＦ）を含み得る。

図４に見られるように、本開示の例示的なニューラルネットワークは、例えば、双方向ＬＳＴＭネットワーク（ＢｉＬＳＴＭ）層、密層、及び／又は条件付き確率場（ＣＲＦ）層のうちの１つ以上を備え得る。いくつかの実施形態では、本開示は、大文字化及び句読点付けを学習するための２つの連携ネットワークを備える例示的なニューラルネットワークを提供し得、ネットワークの各々は、例えば、ＢｉＬＳＴＭ層、密層、及びＣＲＦ層のうちの１つ以上を備える。いくつかの実施形態では、ＢｉＬＳＴＭ層は、隠れ状態が、履歴及び将来のコンテキスト情報の両方を捕捉し、次いで、トークンにラベル付けすることを可能にする。いくつかの実施形態では、ＣＲＦ層は、結果に条件付き確率制約を課す、現在のラベルと隣接ラベルとの間の相関を考慮することを提供する。

いくつかの実施形態では、図４に提示される例示的なニューラルネットワークアーキテクチャは、連携ネットワークの各々について１つずつ、２つの損失関数、例えば、大文字化損失関数及び句読点付け損失関数を最小化することを提供する。いくつかの実施形態では、本ネットワークは、次いで、連帯予測の組み合わせられた損失を表す、句読点付け損失及び大文字化損失の加重和を計算する。いくつかの実施形態では、別個の損失関数の加重和は、各タスクにおけるクラスの相対数（それぞれ、４及び２）に対応する、句読点付け損失の割合２／３及び大文字化損失の割合１／３を反映し得る。マルチタスク訓練においてこれらの重みを使用すると、訓練及び生成における予測の両方において、計算オーバーヘッド及び複雑さのあらゆる低減に加えて、別個のモデルを使用するよりも全体的な改善を得ることができる。

いくつかの実施形態では、本開示は、大文字化及び句読点付けを学習するための２つの連携ネットワークを定義するネットワークアーキテクチャを含む機械学習モデルの連携訓練を提供する。いくつかの実施形態では、本開示の機械学習モデルを訓練するために使用される全ての訓練セグメントは、２つの異なるセットのタグ、すなわち、（実際の入力単語、及び任意選択的にＥＯＳ埋め込みに加えて）句読点付けのためのタグ及び大文字化のためのタグを含み得る。

いくつかの実施形態では、図２の推論段階２１６において、データ拡張は、推論されたターゲット音声セグメントの間に重複を作成し得、文のうちのいくつかは、推論及び予測の目的で入力された複数のターゲットセグメントに現れる。

例えば、４つのターン（又は文）［Ｔ_１，Ｔ_２，Ｔ_３，Ｔ_４］を含む会話は、推論のための２つの例［Ｔ_１，Ｔ_２，Ｔ_３］、［Ｔ_２，Ｔ_３，Ｔ_４］を生成するために使用され得る。その場合、例えばＴ_３内の全ての単語は、コンテキスト［Ｔ_１，Ｔ_２，Ｔ_３］における１回、及びコンテキスト［Ｔ_２，Ｔ_３，Ｔ_４］における第２の回の、２回使用され得る。ターゲットセグメントに対して訓練された機械学習モデルを用いて推論すると、出力は、例えば、１つ以上の単語の句読点付け及び／又は大文字化に関して競合する予測を含み得る。いくつかの実施形態では、本開示の訓練された機械学習モデルは、分類クラスの各々について信頼スコアを割り当てるように構成され得、全てのクラスについてのスコアは合計１．０である。したがって、この例［Ｔ_１，Ｔ_２，Ｔ_３］内の各単語は、全ての可能なタグ（クラス）に対するスコアを得ることになり、この例［Ｔ_２，Ｔ_３，Ｔ_４］内の各単語は、全ての可能なタグ（クラス）に対するスコアを得ることになる。

したがって、Ｔ_３が５単語［ｗ_１，ｗ_２，ｗ_３，ｗ_４，ｗ_５］を含むと仮定すると、ターゲットセグメントコンテキスト［Ｔ_１，Ｔ_２，Ｔ_３］内のＴ_３を推論することは、単語ｗ_１に関して以下の結果を生成し得る（この例の目的のために、Φは、Ｔ_３における他の単語に関して「無関係」を示す）。

同様に、ターゲットセグメントコンテキスト［Ｔ_２，Ｔ３，Ｔ_４］内のＴ_３を推論することは、単語ｗ_１に関して以下の結果を生成し得る（Φは、この例の目的のために、Ｔ_３における他の単語に関して「無関係」を示す）。

したがって、いくつかの実施形態では、本開示は、各ターゲットセグメントコンテキスト内のあらゆる単語の全ての予測を考慮に入れる、競合タグ付け解決機構を提供する。各単語について、競合解決機構は、それが存在する全てのコンテキストから受け取る全ての予測スコアを平均し、最終的に最大平均スコアを選択する。

したがって、Ｔ_３内のｗ_１は以下のように平均を得点する：

したがって、機械学習モデル出力は、可能なクラスの最も高い信頼スコアを受け取った句読点付けタグ「ｏｔｈｅｒ」でｗ_１をタグ付けする。

本発明の実施形態のいくつかの態様は、多項選択式の質問に対する回答を特定のトピックと関連付けることと関連付けられ得る。例えば、質問のテキストを様々なトピックと比較するのと同様の様式で、どのトピックがこれらの回答を他の回答から区別するかを識別するために、多項選択式の質問の回答を質問テキストとともにトピックと比較することができる。言い換えれば、質問及び回答の両方が対話ドキュメント内で相関するので、各回答は、質問と統合されて別々の質問及び回答の組み合わせを形成し、結果として生じる組み合わせは、トピックと比較されて、最も類似したトピックが識別される。

本発明は、システム、方法、及び／又はコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持及び記憶することができる有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は前述のものの任意の好適な組み合わせであり得るが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（random access memory、ＲＡＭ）、読取り専用メモリ（read-only memory、ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（erasable programmable read-only memory、ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（static random access memory、ＳＲＡＭ）、ポータブルコンパクトディスク読取り専用メモリ（compact disc read-only memory、ＣＤ－ＲＯＭ）、デジタル多用途ディスク（digital versatile disk、ＤＶＤ）、メモリスティック、フロッピーディスク、命令が記録された機械的に符号化されたデバイス、及び上記の任意の好適な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通って伝送される電気信号などの、それ自体が一時的な信号であると解釈されるべきではない。むしろ、コンピュータ可読記憶媒体は、非一時的（すなわち、不揮発性）媒体である。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、又はネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び／若しくはワイヤレスネットワークを介して外部コンピュータ若しくは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び／又はエッジ・サーバを含み得る。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（instruction-set-architecture、ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＪａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語を含む１つ以上のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上及び部分的にリモートコンピュータ上で、又は完全にリモートコンピュータ若しくはサーバ上で実行し得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（local area network、ＬＡＮ）若しくはワイドエリアネットワーク（wide area network、ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、又は外部コンピュータへの接続が行われ得る（例えば、インターネットサービスプロバイダを使用してインターネットを介して）。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（field-programmable gate array、ＦＰＧＡ）、又はプログラマブル論理アレイ（programmable logic array、ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行し得る。

本発明の態様は、本明細書において、本発明の実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート例解図及び／又はブロック図を参照して説明される。フローチャート例解図及び／又はブロック図の各ブロック、並びにフローチャート例解図及び／又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装され得ることが理解されるであろう。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに提供されて、コンピュータ若しくは他のプログラム可能データ処理装置のプロセッサを介して実行される命令が、フローチャート及び／若しくはブロック図の１つ以上のブロックにおいて指定された機能／アクションを実施するための手段を作成するように、機械を生成し得る。これらのコンピュータ可読プログラム命令は、コンピュータ、プログラム可能データ処理装置、及び／又は他のデバイスに特定の様式で機能するように指示することができるコンピュータ可読記憶媒体に記憶することもでき、その結果、命令が記憶されたコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図の１つ以上のブロックで指定された機能／アクションの態様を実装する命令を含む製品を含む。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードされて、一連の動作ステップをコンピュータ、他のプログラム可能装置、又は他のデバイス上で実行させて、コンピュータ実装プロセスを生成し得、その結果、コンピュータ、他のプログラム可能装置、又は他のデバイス上で実行する命令は、フローチャート及び／又はブロック図の１つ以上のブロックにおいて指定された機能／アクションを実装する。

図に提供されるフローチャート及びブロック図は、本発明の例示的な実施形態によるシステム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を例解する。この点に関して、フローチャート及び／又はブロック図の各ブロックは、指定された論理機能を実装するための１つ以上の実行可能命令を有する、命令のモジュール、セグメント、又は一部分を表し得ることが理解されるであろう。いくつかの代替的な実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で発生し得る。例えば、連続して示されている２つのブロックは、実際には、実質的に同時に実行され得るか、又はブロックは、含まれる機能に応じて、時には逆の順序で実行され得る。ブロック図及び／又はフローチャート例解図の各ブロック、並びにブロック図及び／又はフローチャート例解図のブロックの組み合わせは、指定された機能若しくはアクションを実行する、又は専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースのシステムによって実装され得ることにも留意されたい。

数値範囲の記載は、具体的に開示された全ての可能な部分範囲、並びにその範囲内の個々の数値を有すると考えられるべきである。例えば、１～６の範囲の記載は、１～３、１～４、１～５、２～４、２～６、３～６などの具体的に開示された部分範囲、並びにその範囲内の個々の数、例えば、１、２、３、４、５、及び６を有するとみなされるべきである。これは、範囲の幅に関係なく適用される。

本発明の様々な実施形態の説明は、例解目的で提示されているが、網羅的であること、又は開示された実施形態に限定されることは意図されていない。説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が、当業者に明白となるであろう。本明細書で使用される用語は、実施形態の原理、実際の適用、又は市場で見られる技術に対する技術的改善を最良に説明するために、又は他の当業者が本明細書で開示される実施形態を理解することを可能にするために選択された。

上記で行われ、説明された実験は、本発明の実施形態の有用性及び有効性を実証する。本発明のいくつかの実施形態は、特定の実験方法及び／又は実験結果に基づいて構成され得、したがって、以下の実験方法及び／又は実験結果は、本発明の実施形態とみなされるべきである。

Claims

システムであって、
少なくとも１つのハードウェアプロセッサと、
プログラム命令を記憶した非一時的コンピュータ可読記憶媒体と、を備え、前記プログラム命令は、前記少なくとも１つのハードウェアプロセッサによって、
句読点付け及び大文字化されたテキストを含む第１のテキストコーパスを受け取ることと、
前記第１のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、前記ラベルは、前記第１のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
初期訓練段階において、第１の訓練セットに対して機械学習モデルを訓練することであって、前記第１の訓練セットは、
（ｉ）前記第１のテキストコーパス内の注釈付けされた前記単語と、
（ｉｉ）前記ラベルと、を含む、訓練することと、
会話音声を表す第２のテキストコーパスを受け取ることと、
前記第２のテキストコーパス内の単語に前記ラベルのセットで注釈付けすることであって、前記ラベルは、前記第２のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
再訓練段階において、第２の訓練セットに対して前記機械学習モデルを再訓練することであって、前記第２の訓練セットは、
（ｉｉｉ）前記第２のテキストコーパス内の注釈付けされた前記単語と、
（ｉｖ）前記ラベルと、を含む、再訓練することと、
推論段階において、前記訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、前記ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を行うように実行可能である、システム。
句読点付けを示す前記ラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示す前記ラベルは、大文字化及びその他からなる群から選択される、請求項１に記載のシステム。
前記第１のテキストコーパスは、前記訓練の前に、少なくとも前記第１のテキストコーパス内の全ての単語を小文字に変換することによって前処理される、請求項１に記載のシステム。
前記第２のテキストコーパスは、前記再訓練の前に、コンテキスト化を実行することによって前処理され、前記コンテキスト化は、前記テキストコーパスを、各々が少なくとも２つの文を含むセグメントにセグメント化することを含む、請求項１に記載のシステム。
前記第２のテキストコーパスが、前記再訓練の前に、データ拡張を実行することによって前処理され、前記データ拡張は、前記会話音声内の１つ以上の先行する文、及び前記会話音声内の１つ以上の後続の文のうちの少なくとも１つを追加することによって前記セグメントの少なくともいくつかを延長することを含む、請求項１に記載のシステム。
前記予測することは、前記予測された句読点付け及び予測された大文字化の各々と関連付けられた信頼スコアを含み、前記ターゲットセット内の単語が前記セグメントのうちの２つ以上に含まれ、前記句読点付け又は大文字化に関する前記予測のうちの２つ以上を受け取るとき、前記２つ以上の予測と関連付けられた前記信頼スコアを平均化して、前記予測することの最終的な信頼スコアを生成する、請求項１に記載のシステム。
前記第２のテキストコーパスは、前記再訓練の前に、文末（ＥＯＳ）埋め込みを含めることによって前処理される、請求項１に記載のシステム。
前記第２のテキストコーパス及び前記単語のターゲットセットは各々、少なくとも２人の参加者間の会話を表すトランスクリプトされたテキストを含み、前記少なくとも２人の参加者は、コールセンターのエージェント及び顧客である、請求項１に記載のシステム。
前記トランスクリプトすることは、テキスト検出、音声認識、及び音声テキスト化検出からなる群から選択される少なくとも１つの分析を含む、請求項８に記載のシステム。
方法であって、
句読点付け及び大文字化されたテキストを含む第１のテキストコーパスを受け取ることと、
前記第１のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、前記ラベルは、前記第１のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
初期訓練段階において、第１の訓練セットに対して機械学習モデルを訓練することであって、前記第１の訓練セットは、
（ｉ）前記第１のテキストコーパス内の注釈付けされた前記単語と、
（ｉｉ）前記ラベルと、を含む、訓練することと、
会話音声を表す第２のテキストコーパスを受け取ることと、
前記第２のテキストコーパス内の単語に前記ラベルのセットで注釈付けすることであって、前記ラベルは、前記第２のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
再訓練段階において、第２の訓練セットに対して前記機械学習モデルを再訓練することであって、前記第２の訓練セットは、
（ｉｉｉ）前記第２のテキストコーパス内の注釈付けされた前記単語と、
（ｉｖ）前記ラベルと、を含む、再訓練することと、
推論段階において、前記訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、前記ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を含む、方法。
句読点付けを示す前記ラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示す前記ラベルは、大文字化及びその他からなる群から選択される、請求項１０に記載の方法。
前記第１のテキストコーパスは、前記訓練の前に、少なくとも前記第１のテキストコーパス内の全ての単語を小文字に変換することによって前処理される、請求項１０に記載の方法。
前記第２のテキストコーパスは、前記再訓練の前に、コンテキスト化を実行することによって前処理され、前記コンテキスト化は、前記テキストコーパスを、各々が少なくとも２つの文を含むセグメントにセグメント化することを含む、請求項１０に記載の方法。
前記第２のテキストコーパスが、前記再訓練の前に、データ拡張を実行することによって前処理され、前記データ拡張は、前記会話音声内の１つ以上の先行する文、及び前記会話音声内の１つ以上の後続の文のうちの少なくとも１つを追加することによって前記セグメントの少なくともいくつかを延長することを含む、請求項１０に記載の方法。
前記予測することは、前記予測された句読点付け及び予測された大文字化の各々と関連付けられた信頼スコアを含み、前記ターゲットセット内の単語が前記セグメントのうちの２つ以上に含まれ、前記句読点付け又は大文字化に関する前記予測のうちの２つ以上を受け取るとき、前記２つ以上の予測と関連付けられた前記信頼スコアを平均化して、前記予測することの最終的な信頼スコアを生成する、請求項１０に記載の方法。
前記第２のテキストコーパスは、前記再訓練の前に、文末（ＥＯＳ）埋め込みを含めることによって前処理される、請求項１０に記載の方法。
プログラム命令が具現化されている非一時的コンピュータ可読記憶媒体を備える、コンピュータプログラム製品であって、前記プログラム命令は、少なくとも１つのハードウェアプロセッサによって、
句読点付け及び大文字化されたテキストを含む第１のテキストコーパスを受け取ることと、
前記第１のテキストコーパス内の単語にラベルのセットで注釈付けすることであって、前記ラベルは、前記第１のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
初期訓練段階において、第１の訓練セットに対して機械学習モデルを訓練することであって、前記第１の訓練セットは、
（ｉ）前記第１のテキストコーパス内の注釈付けされた前記単語と、
（ｉｉ）前記ラベルと、を含む、訓練することと、
会話音声を表す第２のテキストコーパスを受け取ることと、
前記第２のテキストコーパス内の単語に前記ラベルのセットで注釈付けすることであって、前記ラベルは、前記第２のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示す、注釈付けすることと、
再訓練段階において、第２の訓練セットに対して前記機械学習モデルを再訓練することであって、前記第２の訓練セットは、
（ｉｉｉ）前記第２のテキストコーパス内の注釈付けされた前記単語と、
（ｉｖ）前記ラベルと、を含む、再訓練することと、
推論段階において、前記訓練された機械学習モデルを、会話音声を表す単語のターゲットセットに適用して、前記ターゲットセット内の各単語の句読点付け及び大文字化を予測することと、を行うように実行可能である、コンピュータプログラム製品。
前記第１のテキストコーパスは、前記訓練の前に、少なくとも前記第１のテキストコーパス内の全ての単語を小文字に変換することによって前処理される、請求項１７に記載のコンピュータプログラム製品。
句読点付けを示す前記ラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示す前記ラベルは、大文字化及びその他からなる群から選択される、請求項１７に記載のコンピュータプログラム製品。
前記第２のテキストコーパスは、前記再訓練の前に、前記テキストコーパスを、各々が少なくとも２つの文を含むセグメントにセグメント化することを含む、コンテキスト化と、前記会話音声内の１つ以上の先行する文、及び前記会話音声内の１つ以上の後続の文のうちの少なくとも１つを追加することによって前記セグメントの少なくともいくつかを延長することを含む、データ拡張と、文末（ＥＯＳ）埋め込みを含めることと、のうちの少なくとも１つを実行することによって前処理される、請求項１７に記載のコンピュータプログラム製品。
システムであって、
少なくとも１つのハードウェアプロセッサと、
プログラム命令を記憶した非一時的コンピュータ可読記憶媒体と、を備え、
前記プログラム命令は、前記少なくとも１つのハードウェアプロセッサによって、
マルチタスクニューラルネットワークの動作を実行するように実行可能であり、前記マルチタスクニューラルネットワークは、
少なくとも１つの文を含むテキストコーパスを入力として受け取り、前記少なくとも１つの文中の各単語の大文字化を予測する大文字化予測ネットワークであって、第１の損失関数に基づいて訓練される大文字化予測ネットワークと、
前記テキストコーパスを入力として受け取り、前記テキストコーパスに関する句読点付けを予測する句読点付け予測ネットワークであって、第２の損失関数に基づいて訓練される句読点付け予測ネットワークと、
前記第１及び第２の損失関数を組み合わせるマルチタスク損失関数に基づいて、前記大文字化及び前記句読点付けの連携予測を出力する出力層と、を含み、
前記大文字化予測ネットワーク及び前記句読点付け予測ネットワークは、連携して訓練される、システム。
前記プログラム命令は、推論段階において、前記マルチタスクニューラルネットワークを、会話音声を表す単語のターゲットセットに適用して、前記ターゲットセット内の各単語の句読点付け及び大文字化を予測するように更に実行可能である、請求項２１に記載のシステム。
前記連携訓練は、初期訓練段階において、第１の訓練セットに対して、前記大文字化予測ネットワーク及び前記句読点付け予測ネットワークを連携して訓練することを含み、前記第１の訓練セットは、
（ｉ）句読点付け及び大文字化されたテキストを含む第１のテキストコーパスと、
（ｉｉ）前記第１のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示すラベルと、を含む、請求項２１に記載のシステム。
前記連携訓練は、再訓練段階において、第２の訓練セットに対して、前記大文字化予測ネットワーク及び前記句読点付け予測ネットワークを連携して訓練することを更に含み、前記第２の訓練セットは、
（ｉｉｉ）会話音声を表す第２のテキストコーパスと、
（ｉｖ）前記第２のテキストコーパス内の前記単語の各々と関連付けられた句読点付け及び大文字表記を示すラベルと、を含む、請求項２３に記載のシステム。
句読点付けを示す前記ラベルは、カンマ、ピリオド、疑問符、及びその他からなる群から選択され、大文字化を示す前記ラベルは、大文字化及びその他からなる群から選択される、請求項２４に記載のシステム。
前記第１のテキストコーパスは、前記訓練の前に、少なくとも前記第１のテキストコーパス内の全ての単語を小文字に変換することによって前処理される、請求項２４に記載のシステム。
前記第２のテキストコーパスは、前記再訓練の前に、コンテキスト化を実行することによって前処理され、前記コンテキスト化は、前記テキストコーパスを、各々が少なくとも２つの文を含むセグメントにセグメント化することを含む、請求項２４に記載のシステム。
前記第２のテキストコーパスは、前記再訓練の前に、データ拡張を実行することによって前処理され、前記データ拡張は、前記会話音声内の１つ以上の先行する文、及び前記会話音声内の１つ以上の後続の文のうちの少なくとも１つを追加することによって前記セグメントの少なくともいくつかを延長することを含む、請求項２４に記載のシステム。
前記第２のテキストコーパスは、前記再訓練の前に、文末（ＥＯＳ）埋め込みを含めることによって前処理される、請求項２４に記載のシステム。