JP2024001922A - 情報処理システム、情報処理方法およびプログラム - Google Patents
情報処理システム、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP2024001922A JP2024001922A JP2022100794A JP2022100794A JP2024001922A JP 2024001922 A JP2024001922 A JP 2024001922A JP 2022100794 A JP2022100794 A JP 2022100794A JP 2022100794 A JP2022100794 A JP 2022100794A JP 2024001922 A JP2024001922 A JP 2024001922A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- domain
- information processing
- processing system
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims description 43
- 238000012545 processing Methods 0.000 title claims description 27
- 230000014509 gene expression Effects 0.000 claims abstract description 115
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 239000000284 extract Substances 0.000 claims abstract description 17
- 238000012986 modification Methods 0.000 claims description 27
- 230000004048 modification Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 22
- 239000000470 constituent Substances 0.000 claims description 14
- 238000003672 processing method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000010354 integration Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
【課題】所望のドメインに特有のコーパスをより高精度に生成する。【解決手段】情報処理システムは、抽出部と、収集部と、選択部と、を備える。抽出部は、コーパスの生成対象となるドメインに属するドメイン文書から、ドメインに特有の表現を表す1つ以上の特有表現を抽出する。収集部は、特有表現を含む複数のテキストデータを収集する。選択部は、複数のテキストデータから、ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、コーパスとして選択する。【選択図】図1
Description
本発明の実施形態は、情報処理システム、情報処理方法およびプログラムに関する。
例えば音声認識では、大量のテキストデータによって構成される汎用コーパスから学習された汎用言語モデルが用いられる。特定のドメインについて音声認識を実行する場合は、汎用コーパスのみでなく、そのドメインに特有のコーパス(ドメインコーパス)から学習された言語モデル(ドメイン言語モデル)を用いることにより、認識性能を向上させることができる。
言語モデルは、音声認識のほかに、自動対話システムの応答文の生成などにも利用されうる。このため、高精度なドメインコーパスを生成することができれば、これらの技術の処理もより高精度に実行可能となる。
D. Rybach, J. Schalkwyk, M. Riley, "On Lattice Generation for Large Vocabulary Speech Recognition," IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2017
本発明は、所望のドメインに特有のコーパスをより高精度に生成することができる情報処理システム、情報処理方法およびプログラムを提供することを目的とする。
実施形態の情報処理システムは、抽出部と、収集部と、選択部と、を備える。抽出部は、コーパスの生成対象となるドメインに属するドメイン文書から、ドメインに特有の表現を表す1つ以上の特有表現を抽出する。収集部は、特有表現を含む複数のテキストデータを収集する。選択部は、複数のテキストデータから、ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、コーパスとして選択する。
以下に添付図面を参照して、この発明にかかる情報処理システムの好適な実施形態を詳細に説明する。
上記のように、例えば音声認識では、汎用コーパスから学習された汎用言語モデルが用いられる。汎用言語モデルは、一般的に用いられる表現(言い回し、単語など)に対しては頑健である。しかし、あるドメインに特有の表現(特有の言い回し、専門用語など。以下、特有表現と呼称する)に対しては、汎用コーパスに含まれていない場合が多いことから、十分な認識性能を得られない。特に特有表現の認識性能は、例えば大学の講義、学会の講演、および、特定の商品名を含む商品の会議など、特有表現を多く含む可能性のある発表の場で音声認識を活用する上で極めて重要である。
特有表現の認識性能を向上するには、対象とするドメインの特有表現を含むコーパスでドメイン言語モデルを学習する方法が考えられる。例えば、大学での数学の講義をドメインとする音声認識を考えた場合、講義の音声を書き起こしたテキストデータからドメイン言語モデルを学習することで、このドメインの特有表現(数学の証明などのドメイン特有の言い回し、および、数学の用語などの専門用語)に対して、高い認識性能が期待できる。この方法を実現するためには、十分な量のコーパスを用意しなければならない。しかし、講義の音声を書き起こす作業は、例えば時間コストが大きくなる。すなわち、十分な量のコーパスを手作業で収集するのは一般的に困難である。
この問題を解決する有効な手法の1つに、外部の大規模テキストデータから、授業資料および講演資料といったドメインに関する文書(以下、ドメイン文書と呼称する)と類似度の高いテキストデータのみを抽出してドメインコーパスを生成する方法がある。以下、このような方法の例である生成方法G1、G2について説明する。なお、大規模テキストデータは、例えばウェブなどの外部のシステムから収集した大量のテキストデータである。大規模テキストデータは、事前に収集され情報処理システム100内(例えば記憶部221)に記憶されてもよいし、情報処理システム100の通信可能な他のシステム(ストレージシステムなど)に記憶されてもよい。
(生成方法G1)
生成方法G1では、ドメイン文書から作成したテンプレートを用いて、大規模テキストデータからテンプレートで被覆されるテキストデータをドメインコーパスとして選択する。テンプレートは、ドメイン文書から選択された単語列中の1つまたは複数の単語を、任意の単語または単語列を表す特殊記号に置換したものである。多様なテンプレートを作成することで、十分な量のコーパスを生成可能である。しかし、生成されたコーパスには目的のドメインとは関係のない単語および文が含まれることがある。また、テンプレートに含まれない表現は抽出することができない。さらに、特有表現は大規模テキストデータには含まれないことが多く、特有表現を含むドメインコーパスの生成は困難である。
生成方法G1では、ドメイン文書から作成したテンプレートを用いて、大規模テキストデータからテンプレートで被覆されるテキストデータをドメインコーパスとして選択する。テンプレートは、ドメイン文書から選択された単語列中の1つまたは複数の単語を、任意の単語または単語列を表す特殊記号に置換したものである。多様なテンプレートを作成することで、十分な量のコーパスを生成可能である。しかし、生成されたコーパスには目的のドメインとは関係のない単語および文が含まれることがある。また、テンプレートに含まれない表現は抽出することができない。さらに、特有表現は大規模テキストデータには含まれないことが多く、特有表現を含むドメインコーパスの生成は困難である。
(生成方法G2)
生成方法G2では、ユーザが予め指定したトピックについて、ドメイン文書と大規模テキストデータと、のそれぞれについて、トピックとの関連度ベクトルを計算する。その後、ドメイン文書における関連度ベクトルと大規模テキストデータにおける関連度ベクトルの類似度を計算することによって、ドメイン文書に関連するテキストデータを選択し、ドメインコーパスを生成する。しかし、生成方法G2では、ドメイン文書との類似度という基準のみで大規模テキストデータからドメインコーパスを生成しているため、特有表現を含んだドメインコーパスが生成されない可能性があった。
生成方法G2では、ユーザが予め指定したトピックについて、ドメイン文書と大規模テキストデータと、のそれぞれについて、トピックとの関連度ベクトルを計算する。その後、ドメイン文書における関連度ベクトルと大規模テキストデータにおける関連度ベクトルの類似度を計算することによって、ドメイン文書に関連するテキストデータを選択し、ドメインコーパスを生成する。しかし、生成方法G2では、ドメイン文書との類似度という基準のみで大規模テキストデータからドメインコーパスを生成しているため、特有表現を含んだドメインコーパスが生成されない可能性があった。
(第1の実施形態)
第1の実施形態にかかる情報処理システムは、まずコーパスの生成対象となるドメインのドメイン文書から特有表現を抽出する。情報処理システムは、抽出した特有表現を含むテキストデータを、例えば大規模テキストデータから収集する。情報処理システムは、収集されたテキストデータのうち一定の基準R1(ドメインに属するデータを選択するための予め定められた基準)を満たすテキストデータを、ドメインコーパスとして生成する。これにより、ドメイン特有の多様な言い回し、および、特有表現を含むテキストデータを十分に含んだドメインコーパスを生成することができる。
第1の実施形態にかかる情報処理システムは、まずコーパスの生成対象となるドメインのドメイン文書から特有表現を抽出する。情報処理システムは、抽出した特有表現を含むテキストデータを、例えば大規模テキストデータから収集する。情報処理システムは、収集されたテキストデータのうち一定の基準R1(ドメインに属するデータを選択するための予め定められた基準)を満たすテキストデータを、ドメインコーパスとして生成する。これにより、ドメイン特有の多様な言い回し、および、特有表現を含むテキストデータを十分に含んだドメインコーパスを生成することができる。
図1は、第1の実施形態にかかる情報処理システム100の構成の一例を示すブロック図である。図1に示すように、情報処理システム100は、学習装置200を備えている。
学習装置200は、ドメインコーパスの生成、および、生成したドメインコーパスを用いたドメイン言語モデルの学習を行う装置である。情報処理システム100は、ドメインコーパスの生成までを行う装置(生成装置)と、ドメインコーパスを用いて言語モデルの学習を行う装置と、を備えるように構成されてもよい。ドメインコーパスを用いた処理(例えば言語モデルの学習など)を外部の装置で行う場合は、情報処理システム100は、ドメインコーパスの生成までを行う機能(生成装置)のみを備えてもよい。
情報処理システム100(学習装置200)は、サーバ装置などの通常のコンピュータにより実現することができる。情報処理システム100は、クラウド環境上のサーバ装置として構成されてもよい。
学習装置200は、記憶部221と、ディスプレイ222と、抽出部201と、修正部202と、収集部203と、選択部204と、学習部205と、出力制御部206と、を備えている。
記憶部221は、学習装置200で用いられる各種情報を記憶する。例えば記憶部221は、ドメイン文書、および、学習により得られたドメイン言語モデルなどを記憶する。記憶部221は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
ディスプレイ222は、学習装置200で用いられる各種情報を表示するための表示装置である。ディスプレイ222は、例えば液晶ディスプレイ、および、タッチパネルなどにより実現される。
出力制御部206は、情報処理システム100で用いられる各種データの出力を制御する。例えば出力制御部206は、ディスプレイ222に対するデータの表示を制御する。表示するデータは、例えば、抽出部201による抽出結果(抽出された特有表現)と、選択部204による選択結果(選択されたテキストデータ)と、のうち少なくとも一方を含む。
抽出部201は、ドメイン文書から特有表現を抽出し、リストとして出力する。修正部202は、出力制御部206を用いて特有表現のリストをユーザに対して表示し、必要に応じてユーザにより指定されたリストの修正指示に従い、リストを修正して出力する。収集部203は、特有表現のリストを受け取り、例えば大規模テキストデータから特有表現を含むテキストデータを収集する。選択部204は、特有表現のリストを用いた指標、および、対象のドメインに関する文書を用いた指標のうち少なくとも1つの指標を用いて、収集されたテキストデータから基準R1を満たすテキストデータをドメインコーパスとして選択する。修正部202は、さらに、選択部204により選択されたテキストデータ、または、選択されなかったテキストデータをその理由と共にユーザに対して表示し、必要に応じてユーザにより指定された修正指示に従い、テキストデータの修正(ドメインコーパスからの削除、ドメインコーパスへの追加など)を行う。学習部205は、修正部202が出力したドメインコーパスからドメイン言語モデルを学習する。各部の詳細は後述する。
上記各部(抽出部201、修正部202、収集部203、選択部204、学習部205、および、出力制御部206)は、例えば、1つまたは複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2つ以上を実現してもよい。
情報処理システム100への入力はドメイン文書であり、出力はドメイン言語モデルである。言語モデルはどのような構成であってもよいが、例えばN-gramおよびニューラルネットワークを用いる手法がある。ニューラルネットワークとしては、フィードフォワードニューラルネットワーク(Feed Forward Neural Network:FNN)、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)、再帰型ニューラルネットワーク(Recurrent Neural Network:RNN)、および、RNNの一種である(Long short-term memory:LSTM)など、種々のネットワーク構成を用いることができる。
次に、上記各部の機能の詳細を説明する。
抽出部201は、コーパスの生成対象となるドメインに属するドメイン文書から1つ以上の特有表現を抽出し、特有表現リストとして出力する。本実施形態では、以下に述べる一定の基準R2(特有表現を抽出するための予め定められた基準)を満たす単語列を特有表現とする。基準R2は、(R2_1)表現の出現しやすさを示す指標、(R2_2)一般的な文書で広く利用されている表現かどうかを示す指標、および、(R2_3)誤認識のしやすさを示す指標(以下、誤認識のしやすさ度と呼称する)の少なくともいずれか1つの指標についての基準を表す。(R2_1)としては例えばC-Value、(R2_2)としては例えば汎用言語モデルを使用したPerplexityを用いることができる。以下、それぞれの指標について詳細を説明する。
(R2_1)表現の出現しやすさを示す指標
本実施形態では基準(R2_1)としてC-Valueを用いる。表現の出現しやすさを示す指標としては、他に単語頻度(TF:Term Frequency)などがある。C-Valueは、ドメイン文書に含まれるコロケーション(連続した単語列)のうち、いずれのコロケーションが高い重要度を持つかを判定する指標の1つである。C-Valueは、以下の(1)式で定義される。
a:コロケーション
|a|:aの構成要素単語数
n(a):aの出現頻度
t(a):aを内包するコロケーションの出現頻度の合計
c(a):aを内包するコロケーションの種類数
本実施形態では基準(R2_1)としてC-Valueを用いる。表現の出現しやすさを示す指標としては、他に単語頻度(TF:Term Frequency)などがある。C-Valueは、ドメイン文書に含まれるコロケーション(連続した単語列)のうち、いずれのコロケーションが高い重要度を持つかを判定する指標の1つである。C-Valueは、以下の(1)式で定義される。
|a|:aの構成要素単語数
n(a):aの出現頻度
t(a):aを内包するコロケーションの出現頻度の合計
c(a):aを内包するコロケーションの種類数
C-Valueは、以下のような判定基準で単語列aの特有表現性を判定する指標であることを意味する。なお特有表現性とは、単語列が特有表現であることの確からしさを表す。
・aの構成要素単語数が多いと特有表現性が高い
・aの出現頻度が高いと特有表現性が高い
・aを内包する単語列の出現頻度が高く、それらの単語列の種類数が少ないと特有表現性が低い
・aの構成要素単語数が多いと特有表現性が高い
・aの出現頻度が高いと特有表現性が高い
・aを内包する単語列の出現頻度が高く、それらの単語列の種類数が少ないと特有表現性が低い
(R2_2)一般的な文書で広く利用されている表現かどうかを示す指標
C-Valueの他に、ある表現が一般的な文書で広く利用されているかどうかを表す指標に基づいて特有表現を選択することもできる。このような指標の例の一つとして、汎用言語モデルを使用したPerplexityが挙げられる。このような指標の他の例として、逆文書頻度(IDF:Inverse Document Frequency)などがある。Perplexityは、汎用コーパスを用いて学習された汎用言語モデルを用いて、以下の(2)式により求めることができる。
PP:Perplexity
w1,w2,・・・,wN:特有表現を構成する形態素列
P(w1,w2,・・・,wN):形態素列w1,w2,・・・,wNの汎用言語モデル中での出現確率
N:特有表現を構成する形態素の数
C-Valueの他に、ある表現が一般的な文書で広く利用されているかどうかを表す指標に基づいて特有表現を選択することもできる。このような指標の例の一つとして、汎用言語モデルを使用したPerplexityが挙げられる。このような指標の他の例として、逆文書頻度(IDF:Inverse Document Frequency)などがある。Perplexityは、汎用コーパスを用いて学習された汎用言語モデルを用いて、以下の(2)式により求めることができる。
w1,w2,・・・,wN:特有表現を構成する形態素列
P(w1,w2,・・・,wN):形態素列w1,w2,・・・,wNの汎用言語モデル中での出現確率
N:特有表現を構成する形態素の数
一般にモデルに頻出する表現であれば、Perplexityは小さくなり、モデルに出現することが少ない表現はPerplexityが大きくなる。すなわち、Perplexityが大きい用語(形態素列)は、一般的な文書で使われることが少なく、特有表現性が高いということになる。
(R2_3)誤認識のしやすさ度
誤認識のしやすさ度は、C-Valueおよび汎用言語モデルを使用したPerplexityなどの他の指標を用いて選択された単語列から、音声認識したときに誤認識する可能性が高い単語列を抽出するための指標である。以下では、他の指標としてC-Valueを用いる例を説明するが、汎用言語モデルを使用したPerplexityなどの指標についても同様の手順を適用できる。
誤認識のしやすさ度は、C-Valueおよび汎用言語モデルを使用したPerplexityなどの他の指標を用いて選択された単語列から、音声認識したときに誤認識する可能性が高い単語列を抽出するための指標である。以下では、他の指標としてC-Valueを用いる例を説明するが、汎用言語モデルを使用したPerplexityなどの指標についても同様の手順を適用できる。
具体的には、誤認識のしやすさ度は、ドメイン文書に含まれる単語列のうち、閾値以上のC-Valueが算出された単語列の中から、発話されたときに音声認識エンジンが誤認識する可能性が高い単語列を抽出する指標である。誤認識のしやすさ度の算出方法を、図2を参照しながら説明する。図2は、誤認識のしやすさ度の算出方法の概要を示す図である。
抽出部201は、漢字仮名交じりのドメイン文書を読み仮名列に変換する。変換方法はどのような方法であってもよいが、例えば漢字と読み仮名とを対応づけた辞書を参照する方法を用いることができる。
抽出部201は、読み仮名列を用いて、読み仮名列に相当する音声を入力したと仮定した場合の音声認識結果を推定する(ステップS101)。抽出部201は、例えば特許文献3に記載の手法などを用いて、読み仮名列を入力したときの音声認識結果を推定することができる。
抽出部201は、推定された音声認識結果(疑似音声認識結果)を表す単語列と、元文書(ドメイン文書)との間で形態素列を比較し、差分を検出する(ステップS102)。これにより、誤認識しやすい形態素列(差分)が元文書から抽出される。図3および図4は、差分検出処理の例を示す図である。
例えば図3は、”弁護士をやってるんですが修士のときは”を意味する文351と、疑似音声認識結果である文352と、から差分を検出する例である。文351と文352との間では、文字361、362、および、記号363の箇所が相違する。記号363は、対応する文字が存在しないことを示す。図3では2つのプラス記号(++)が記号363として用いられている。相違する箇所について、抽出部201は、文字が置換されたか(REP)、文字が削除されたか(DEL)などを解析する。図3では、文字361、362の箇所で文字が置換され、記号363の箇所で文字が削除された例が示されている。抽出部201は、相違する箇所に対応する形態素、すなわち、誤認識しやすい形態素列として、”修士”を意味する形態素370を抽出する。
図4は、”メッセンジャで話してるだけでも”を意味する文401と、疑似音声認識結果である文402と、から差分を検出する例である。文401と文402との間では、文字421および記号422の箇所が相違する。相違する箇所について、抽出部201は、相違する箇所に対応する形態素、すなわち、誤認識しやすい形態素列として、”メッセンジャ”を意味する形態素410を抽出する。
図2に戻り、抽出部201は、差分として検出された形態素列が、ドメイン文書中で誤認識された回数(出現回数)を算出する(ステップS103)。抽出部201は、ドメイン文書から、閾値以上のC-Valueが算出された単語列を抽出する(ステップS104)。
抽出部201は、差分として検出された形態素列、出現回数、および、閾値以上のC-Valueが算出された単語列に基づき、以下の(3)式により”誤認識のしやすさ度”を表すAEscoreを算出する(ステップS105)。
w:閾値以上のC-Valueが算出された単語列
x:差分が検出された元文書の形態素列
w⊂x:形態素列wが形態素列xに内包されるとき真
counts(x):形態素列xが文書中で誤認識された回数
sub(w):形態素列wの部分形態素列
len(x):形態素列xの文字列長
len(w):形態素列wの文字列長
x:差分が検出された元文書の形態素列
w⊂x:形態素列wが形態素列xに内包されるとき真
counts(x):形態素列xが文書中で誤認識された回数
sub(w):形態素列wの部分形態素列
len(x):形態素列xの文字列長
len(w):形態素列wの文字列長
すなわち、閾値以上のC-Valueが算出された単語列のうち、誤認識しやすい形態素列と一致する部分が多い単語ほど、その単語の“誤認識のしやすさ度”は大きくなる。
次に、上記の3つの指標を用いて特有表現を抽出する処理の流れの例について説明する。抽出部201は、例えば以下の手順により、ドメイン文書から特有表現を抽出する。
(S1)ドメイン文書を形態素単位へ分割し、単語列のみ抽出する。
(S2)単語ごとにC-Valueを算出し、閾値以上のC-Valueを持つ単語列(以下、特有表現候補と呼称する)を抽出する。
(S3)特有表現候補のPerplexityと誤認識のしやすさ度を算出する。
(S4)特有表現候補を、C-Value、Perplexity、誤認識のしやすさ度のうち少なくともいずれか1つの指標を用いてソートし、上位のM1(M1は1以上の整数)個の単語を特有表現のリストとして出力する。
(S1)ドメイン文書を形態素単位へ分割し、単語列のみ抽出する。
(S2)単語ごとにC-Valueを算出し、閾値以上のC-Valueを持つ単語列(以下、特有表現候補と呼称する)を抽出する。
(S3)特有表現候補のPerplexityと誤認識のしやすさ度を算出する。
(S4)特有表現候補を、C-Value、Perplexity、誤認識のしやすさ度のうち少なくともいずれか1つの指標を用いてソートし、上位のM1(M1は1以上の整数)個の単語を特有表現のリストとして出力する。
次に修正部202の機能について説明する。修正部202は、抽出部201により抽出された特有表現のリストの修正、および、選択部204による選択結果の修正を行う。ここでは、特有表現のリストの修正について説明する。選択結果の修正については選択部204の説明の後に説明する。なおユーザによる修正を許可しない場合等であれば、修正部202の機能(特有表現のリストの修正、選択結果の修正)のうち少なくとも一部は備えないように構成されてもよい。
修正部202が特有表現のリストの修正に用いるユーザインターフェイス(表示画面)の例を図5に示す。修正部202は、抽出部201が出力した特有表現のリストを含む、図5に示すような表示画面501を、出力制御部206を用いて表示する。ユーザは、選択フィールド511により、リストに含まれる特有表現から修正対象とする特有表現を選択することができる。表示画面502は、“人口知能”が修正対象として選択された状態を示す。表示画面503は、選択された特有表現を修正した“人工知能”が入力フィールド512に入力された状態を示す。
例えばOKボタンが押下されると、修正部202は、入力フィールド512に入力されたデータにより、特有表現のリストを修正し、修正されたリストを出力する。修正部202は、特有表現が抽出された理由を表示画面に表示してもよい。表示する理由の内容は、例えばC-Value、Perplexity、および、誤認識のしやすさ度の数値を含む文字列などである。
次に収集部203の機能について説明する。収集部203は、特有表現のリストを受け取り、特有表現を含むテキストデータを大規模テキストデータから収集する。ここで、特有表現を含むテキストデータとは、特有表現そのものを含むテキストデータに加え、特有表現の構成語(特有表現を構成する構成語)の一部が含まれているテキストデータ、および、表記が一部異なる特有表現が含まれるテキストデータが含まれてもよい。
収集部203は、特有表現または構成語の出現回数が多い順に一定数のテキストデータを収集してもよい。例えば収集部203は、構成語が含まれるテキストデータを収集する場合は、大規模テキストデータを構成語の出現回数に応じてソートし、上位M2(M2は1以上の整数)個のテキストデータを収集する。
次に選択部204の機能について説明する。収集部203により収集されたテキストデータの中には、ドメインと関係のないテキストデータ、および、特有表現の出現回数が著しく低いテキストデータが含まれることがある。そこで選択部204は、収集されたテキストデータから一定の基準R1を満たすテキストデータを、ドメインコーパスとして選択する。基準R1は、(R1_1)特有表現のリストを用いた指標、および、(R1_2)対象のドメインに関する文書を用いた指標(対象のドメイン文書を用いた指標)のうち少なくとも1つの指標についての基準を表す。以下、それぞれの指標について詳細を説明する。
(R1_1)特有表現のリストを用いた指標
本指標は、収集されたテキストデータに、特有表現、および、特有表現の構成語の少なくとも一方がどの程度含まれるかを表す指標である。具体的には、本指標は、特有表現の出現回数(出現頻度)、出現率、および、TF-IDFの少なくともいずれか1つを用いる。
本指標は、収集されたテキストデータに、特有表現、および、特有表現の構成語の少なくとも一方がどの程度含まれるかを表す指標である。具体的には、本指標は、特有表現の出現回数(出現頻度)、出現率、および、TF-IDFの少なくともいずれか1つを用いる。
出現率は、特有表現が出現する割合を表し、例えばテキストデータ内の単語数に対する特有表現の出現回数により算出される。
TF-IDFとは、テキストデータをベクトル表現に変換する手法の1つである。以下の(4)式は、テキストtおよび単語wが与えられたときのTF-IDFの算出方法を示す。一般に、テキストtにおける単語wの重要度が高いほど、TF-IDFが大きくなる。
nw,t:単語wのテキストtの中での出現回数
Σs∈tns,t:テキストtの中のすべての単語の出現回数を足した値
N:文書数
df(w):単語wが出現する文書数
Σs∈tns,t:テキストtの中のすべての単語の出現回数を足した値
N:文書数
df(w):単語wが出現する文書数
以下、本指標の算出方法について、出現回数を例に詳細を説明する。出現率、または、TF-IDFを用いる場合も同様の手順を適用できる。
まず、特有表現の出現回数を用いる指標を説明する。選択部204は、収集されたテキストデータから特有表現のリストに含まれる特有表現がそれぞれ何回出現したかを測定する。次に、選択部204は、収集されたテキストデータを特有表現ごとに出現回数が多い順にソートし、上位M3(M3は1以上の整数)個を抽出する。これにより、特有表現の出現回数が多いテキストデータが選択される。
次に、特有表現の構成語の出現回数を用いる指標を説明する。例として、特有表現を“AI検討会議”とした場合の指標の算出方法を図6に示す。
選択部204は、形態素解析により形態素を単位として特有表現を分割し、構成語列を取得する(ステップS201)。図6の例では、“AI”、“検討”、“会議”の3つの構成語が得られる。
選択部204は、構成語列から連続単語列であるN-gram(Nは1以上の整数)を抽出する(ステップS202)。図6の例では、以下のように1-gram、2-gram、3-gramが抽出される(N=3)。
・1-gram:”AI検討会議”
・2-gram:”AI検討”、”検討会議”
・3-gram:”AI”、”検討”、”会議”
・1-gram:”AI検討会議”
・2-gram:”AI検討”、”検討会議”
・3-gram:”AI”、”検討”、”会議”
選択部204は、収集されたテキストデータ内での、N-gramごとの出現回数を測定する(ステップS203)。テーブル601は、3つのテキストデータであるテキストT1、T2、T3ごと、かつ、N-gramごとの出現回数の測定結果を記載している。
選択部204は、Nが大きい順、かつ、出現回数が多い順にソートし、上位M3個のテキストデータを選択する(ステップS204)。これにより、特有表現の構成語がより多く含まれるテキストデータを取得できる。
TF-IDFを用いる場合は、値が大きい順にソートする手法の代わりに、コサイン類似度を用いる手法を用いてもよい。図7は、コサイン類似度の算出方法の例を示す図である。なお図7は、“今日は検討会議をする”を収集されたテキストデータとし、特有表現を“AI検討会議”とした場合の算出方法の例である。
選択部204は、収集されたテキストデータ、および、特有表現を、それぞれ形態素解析により形態素を単位として分割し、形態素列を作成する(ステップS301)。図7の例では、テキストデータから形態素列[今日,は,検討,会議,を,する]が得られ、特有表現から形態素列[AI,検討,会議]が得られる。
選択部204は、2つの形態素列を統合した形態素列を作成する(ステップS302)。図7の例では、形態素列[今日,は,検討,会議,を,する,AI]が得られる。
選択部204は、統合された形態素列の要素ごとに、収集されたテキストデータと形態素列の要素とのTF-IDFを算出し、算出した値を要素とするベクトルを作成する。同様に、特有表現と形態素列からもTF-IDFを算出し、ベクトルを作成する。これにより、形態素列の要素の個数(形態素数)を次元数とする2つのベクトルが得られる(ステップS303)。図7の例では、ベクトル[1,1,1,1,1,1,0]、および、ベクトル[0,0,1,1,0,0,1]の2つが得られる。
選択部204は、2つのベクトル間のコサイン類似度を算出する(ステップS304)。図7の例では、テキストデータ“今日は検討会議をする”と、特有表現“AI検討会議”との間のコサイン類似度は0.9となる。
選択部204は、このような類似度算出処理を、収集されたテキストデータごとに実行する。選択部204は、収集されたテキストデータを類似度が大きい順にソートし、上位M3個のテキストデータを選択する。
(R1_2)対象のドメインに関する文書を用いた指標
本指標は、収集されたテキストデータのドメインを判別し、対象のドメインに対して、より類似するテキストデータを選択する指標である。テキストデータのドメインを判別する手法の1つとして、テキストデータを固定長のベクトルに変換(ベクトル化)し、ドメイン文書に対する類似度を算出する方法がある。本指標による基準は、このようにして算出される、ドメイン文書とテキストデータとの間の類似度に基づく基準である。
本指標は、収集されたテキストデータのドメインを判別し、対象のドメインに対して、より類似するテキストデータを選択する指標である。テキストデータのドメインを判別する手法の1つとして、テキストデータを固定長のベクトルに変換(ベクトル化)し、ドメイン文書に対する類似度を算出する方法がある。本指標による基準は、このようにして算出される、ドメイン文書とテキストデータとの間の類似度に基づく基準である。
例えば選択部204は、ドメイン文書を固定長のベクトル(第1ベクトル)に変換する。同様に、選択部204は、収集されたテキストデータを固定長のベクトル(第2ベクトル)に変換する。選択部204は、2つのベクトルの類似度(例えばコサイン類似度)を算出する。これにより、対象のドメインと収集されたテキストデータとの間の類似度を判別できる。
選択部204は、収集されたテキストデータを類似度順にソートし、上位M3個のテキストデータを選択する。これにより、対象のドメインと類似度の高いテキストデータを抽出できる。ドメイン文書およびテキストデータを固定長のベクトルに変換する手法としては、例えばDoc2vecおよびWord2vecがある。
上記のように、選択部204による選択結果は、ユーザにより修正可能とされてもよい。以下、修正部202が選択結果を修正する機能について説明する。
修正部202が選択されたテキストデータの修正に用いるユーザインターフェイス(表示画面)の例を図8に示す。表示画面800は、選択部204により選択されたテキストデータ801~803と、選択部204により選択されなかったテキストデータ811~812と、選択・非選択の理由を示すメッセージ821と、削除ボタン822と、を含む。
選択されたテキストデータと、選択されなかったテキストデータとは、異なる表示態様で表示されてもよい。図8の例では、選択されなかったテキストデータの文字サイズが小さく、かつ、斜体の文字で表示されている。表示態様はこれに限られず、色を異ならせる(例えば選択されなかったテキストデータの色を薄くする)ように構成されてもよい。
テキストデータ801が例えばユーザにより指定されると、指定されたテキストデータ801が選択された理由がメッセージ821として表示される。ユーザが、テキストデータ801をドメインコーパスから削除可能とするために、削除ボタン822が表示される。選択されなかったテキストデータ(テキストデータ811~812)がユーザにより指定された場合、指定されたテキストデータをドメインコーパスに追加するための追加ボタンが、削除ボタン822の代わりに表示される。
このようにして、ユーザは必要に応じてテキストデータをドメインコーパスから削除すること、および、テキストデータをドメインコーパスに追加することが可能となる。メッセージ821として表示する理由の内容は、例えば、特有表現のリストを用いた指標、および、対象のドメインに関する文書を用いた指標の数値を含む文字列である。
次に学習部205の機能について説明する。学習部205は、選択部204により選択されたテキストデータを含むドメインコーパスを用いてドメイン言語モデルを学習する。学習部205は、採用する言語モデルの形式(N-gram言語モデル、ニューラルネットワーク言語モデルなど)に応じて従来から用いられているどのような学習方法により学習を実行してもよい。
次に、情報処理システム100による学習処理について説明する。図9は、第1の実施形態における学習処理の一例を示すフローチャートである。
抽出部201は、ドメイン文書から特有表現を抽出する(ステップS401)。修正部202は、出力制御部206を用いて特有表現のリストを表示し、ユーザから修正が指定された場合、修正指示に従い特有表現を修正する(ステップS402)。
収集部203は、特有表現を含むテキストデータを例えば大規模テキストデータから収集する(ステップS403)。選択部204は、基準R1を満たすテキストデータを選択する(ステップS404)。修正部202は、選択されたテキストデータを、出力制御部206を用いて表示し、ユーザから修正が指定された場合、修正指示に従いテキストデータを修正する(ステップS405)。
学習部205は、修正後のテキストデータをドメインコーパスとして言語モデルを学習し(ステップS406)、学習処理を終了する。
このように、第1の実施形態にかかる情報処理システムは、ドメイン文書から特有表現を抽出し、抽出した特有表現を含むテキストデータを収集し、収集されたテキストデータのうち一定の基準を満たすテキストデータを、ドメインコーパスとして生成する。これにより、所望のドメインに特有のコーパスをより高精度に生成することができる。
(第2の実施形態)
第2の実施形態では、学習されたドメイン言語モデルを用いた処理の例として、音声認識処理を実行する構成例を説明する。上記のように、ドメイン言語モデルは、音声認識処理のみでなく、自動対話システムの応答文の生成などの処理にも用いることができる。
第2の実施形態では、学習されたドメイン言語モデルを用いた処理の例として、音声認識処理を実行する構成例を説明する。上記のように、ドメイン言語モデルは、音声認識処理のみでなく、自動対話システムの応答文の生成などの処理にも用いることができる。
図10は、第2の実施形態にかかる情報処理システム100-2の構成の一例を示すブロック図である。図10に示すように、情報処理システム100-2は、学習装置200と、認識装置300-2(認識部の一例)と、を備えている。
情報処理システム100-2(学習装置200、認識装置300-2)は、サーバ装置などの通常のコンピュータにより実現することができる。学習装置200および認識装置300-2の少なくとも一方は、クラウド環境上のサーバ装置として構成されてもよい。学習装置200および認識装置300-2が異なる装置として実現される場合、両者は、例えばインターネットなどのネットワークにより接続されてもよい。
学習装置200の構成は、第1の実施形態にかかる情報処理システム100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
図11は、認識装置300-2について、各部の関連および処理の流れの例を示す図である。以下、図10および図11を用いて認識装置300-2の機能の詳細について説明する。
認識装置300-2は、学習されたドメイン言語モデルを用いた音声認識処理を行う装置である。認識装置300-2への入力は、1つの入力音声であり、出力は認識結果である。
認識装置300-2は、記憶部320-2と、スコア算出部301-2と、ラティス生成部302-2と、統合部303-2と、探索部304-2と、を備えている。
記憶部320-2は、認識装置300-2で用いられる各種情報を記憶する。例えば記憶部320-2は、音響モデル321-2、発音辞書322-2、言語モデル323-2、および、言語モデル324-2を記憶する。
音響モデル321-2は、収音された音声に基づいて音素、音節、文字、単語片、および、単語の少なくともいずれか1つの事後確率を出力するように学習されたモデルであり、例えばニューラルネットワークが用いられる。以下、音響モデルからの出力を音響スコアと呼称する。
発音辞書322-2は、音響スコアに基づき単語を得るために用いられる辞書である。
言語モデル323-2は、例えば汎用言語モデルである。言語モデル324-2は、例えば学習装置200により学習され、学習装置200から受信されたドメイン言語モデルである。以下では、言語モデル323-2を言語モデルMAと呼び、言語モデル324-2を言語モデルMBと呼ぶ場合がある。
記憶部320-2は、フラッシュメモリ、メモリカード、RAM、HDD、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
記憶部320-2に記憶される各情報(音響モデル321-2、発音辞書322-2、言語モデルMA、言語モデルMB)の少なくとも一部は、物理的に異なる複数の記憶媒体に記憶されてもよい。
スコア算出部301-2は、マイクロフォンなどの音声入力装置で収音された音声(以下、入力音声と呼称する)と音響モデルに基づいて、音響モデルからの出力である音響スコアを得る。音響モデルの入力には、入力音声の波形をフレームごとに分割した音声波形をそのまま用いてもよいし、フレームごとに分割した音声波形から得られた特徴量(特徴ベクトル)を用いてもよい。特徴量は、例えば、メルフィルタバンク特徴量などの、従来から用いられているどのような特徴量であってもよい。スコア算出部301-2は、分割された音声波形または特徴ベクトルをフレームごとに音響モデルに入力し、フレームごとに音響スコアを得る。
ラティス生成部302-2は、音響スコアと発音辞書322-2と言語モデルに基づいて、出力単語列の上位候補を出力する。例えばラティス生成部302-2は、発音辞書322-2を用いて、音響スコアに基づき単語を得る。
言語モデルは、発音辞書322-2を用いて推定された単語列により構成される認識結果の発話文の候補それぞれの確率を言語スコアとして出力する際に使用される。言語モデルは、汎用言語モデル、ドメイン言語モデル、または、統合部303-2により汎用言語モデルおよびドメイン言語モデルを統合した統合モデルである。統合モデルを用いない場合は、統合部303-2は備えられなくてもよい。
ラティス生成部302-2は、スコアが大きい順に一定数の候補を出力する。スコアは、音響スコアと言語スコアから算出される。ラティス生成部302-2が出力する上位候補は、出力単語列の上位候補をノードとし、上位候補の単語のスコアをエッジとするラティスという形で出力される。
統合部303-2は、学習装置200により学習されたドメイン言語モデルを含む複数の言語モデルを統合する。統合方法は、リスコアリング、および、重みづけ和の少なくともいずれか1つの方法を用いることができる。図11~図12は、統合方法としてリスコアリングを用いる場合の例である。重みづけ和を用いる例は、図13~図14で説明する。
探索部304-2は、ラティスからスコアの最も高い音声認識結果を探索し、音声認識結果を出力する。
ラティス生成部302-2における出力単語列の上位候補の生成、および、探索部304-2における探索は、例えば非特許文献1の方法、および、その他の従来から用いられているどのような方法を適用してもよい。
上記各部(スコア算出部301-2、ラティス生成部302-2、統合部303-2、および、探索部304-2)は、例えば、1つまたは複数のプロセッサにより実現される。例えば上記各部は、CPUなどのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のICなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2つ以上を実現してもよい。
次に、統合部303-2による統合方法であるリスコアリングの詳細について説明する。
まず、ラティス生成部302-2は、言語モデルMA(汎用言語モデル)を用いて、音響スコアと言語スコアを含むラティスを出力する。統合部303-2は、出力されたラティスを、言語モデルMB(ドメイン言語モデル)により得られる言語スコアを用いてリスコアリングを行う。例えば統合部303-2は、以下の(5)式によりリスコアリングを行う。なお、言語スコアSCA、SCBは、それぞれ言語モデルMA、MBにより得られる言語スコアを表す。
S:リスコアリング前のスコア
SA:音響スコア
WL:言語スコアSCAに対する重み
SL:言語スコアSCA
SR:リスコアリング後のスコア
WRG:リスコアリング時の言語スコアSCAに対する重み
WRD:言語スコアSCBに対する重み
SLD:言語スコアSCB
SA:音響スコア
WL:言語スコアSCAに対する重み
SL:言語スコアSCA
SR:リスコアリング後のスコア
WRG:リスコアリング時の言語スコアSCAに対する重み
WRD:言語スコアSCBに対する重み
SLD:言語スコアSCB
なお、言語モデルを3つ以上統合する場合も同様の手法を適用できる。リスコアリング後、統合部303-2はリスコアリング後のスコアを持つラティスを出力する。
次に、リスコアリングを行う場合の音声認識処理について図12を用いて説明する。図12は、第2の実施形態における音声認識処理の一例を示すフローチャートである。
スコア算出部301-2は、入力音声と音響モデルとを用いて音響スコアを算出する(ステップS501)。ラティス生成部302-2は、音響スコアと発音辞書322-2と言語モデルMAに基づいて、出力単語列のスコアの上位候補を含むラティスを生成する(ステップS502)。
統合部303-2は、リスコアリングにより、言語モデルMA、言語モデルMBのスコアを統合する(ステップS503)。探索部304-2は、リスコアリング後のラティスからスコアの最も高い音声認識結果を探索し、音声認識結果を出力する(ステップS504)。
次に、重みづけ和による複数の言語モデルの統合方法について、図13、図14を用いて説明する。以下では、重みづけ和による統合を行う認識装置を認識装置300-2bとする。認識装置300-2bは、統合言語モデル325-2bが追加されること、および、ラティス生成部302-2bおよび統合部303-2bの機能が上記の図11、図12の例と異なっている。その他の構成は同様であるため同一の符号を付し説明を省略する。
図13は、重みづけ和を用いる場合の、認識装置300-2bの各部の関連および処理の流れの例を示す図である。統合言語モデル325-2bは、言語モデルMAと言語モデルMBとを統合した言語モデルであり、例えば記憶部320-2に記憶される。
ラティス生成部302-2bは、統合言語モデルを用いてラティスを生成する点が、上記のラティス生成部302-2と異なっている。
統合言語モデルは、例えば、各言語モデルが保持するすべての単語の出現確率を重みづけ和することで生成されるモデルである。例えば統合部303-2bは、以下の(6)式のように、重みづけ和を実行し統合言語モデルを生成する。
Pm(w):重みづけ和後の単語wの出現確率
Wg:言語モデルMAに対する重み
Pg(w):言語モデルMAが保持する単語wの出現確率
Wd:言語モデルMBに対する重み
Pd(w):言語モデルMBが保持する単語wの出現確率
Wg:言語モデルMAに対する重み
Pg(w):言語モデルMAが保持する単語wの出現確率
Wd:言語モデルMBに対する重み
Pd(w):言語モデルMBが保持する単語wの出現確率
なお、言語モデルを3つ以上統合する場合も同様の手法を適用できる。
次に、重みづけ和による統合を行う場合の音声認識処理について図14を用いて説明する。図14は、第2の実施形態における音声認識処理の他の例を示すフローチャートである。
統合部303-2bは、複数の言語モデル(例えば、言語モデルMA、MB)を統合し、統合言語モデルを生成する(ステップS601)。
スコア算出部301-2は、入力音声と音響モデルとを用いて音響スコアを算出する(ステップS602)。ラティス生成部302-2bは、音響スコアと発音辞書322-2と統合言語モデルに基づいて、出力単語列のスコアの上位候補を含むラティスを生成する(ステップS603)。
探索部304-2は、ラティスからスコアの最も高い音声認識結果を探索し、音声認識結果を出力する(ステップS604)。
なお、統合部は、リスコアリング、および、重みづけ和の両方を実行してもよい。例えば統合部は、統合モデルを用いてラティスを生成後、さらに、ある言語モデル(例えば、言語モデルMB)を用いてリスコアリングを実行する。
このように、第2の実施形態にかかる情報処理システムでは、第1の実施形態の手法により生成されたドメインコーパスにより学習されたドメイン言語モデルを用いて音声認識を行うことができる。このため、音声認識時の特有表現の認識性能を向上させることができる。
以上説明したとおり、第1から第2の実施形態によれば、所望のドメインに特有のコーパスをより高精度に生成することができる。
次に、第1または第2の実施形態にかかる情報処理システムのハードウェア構成について図15を用いて説明する。図15は、第1または第2の実施形態にかかる情報処理システムのハードウェア構成例を示す説明図である。
第1または第2の実施形態にかかる情報処理システムは、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1または第2の実施形態にかかる情報処理システムで実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1または第2の実施形態にかかる情報処理システムで実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1または第2の実施形態にかかる情報処理システムで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施形態にかかる情報処理システムで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1または第2の実施形態にかかる情報処理システムで実行されるプログラムは、コンピュータを上述した情報処理システムの各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100-2 情報処理システム
200 学習装置
201 抽出部
202 修正部
203 収集部
204 選択部
205 学習部
206 出力制御部
221 記憶部
222 ディスプレイ
300-2、300-2b 認識装置
301-2 スコア算出部
302-2、302-2b ラティス生成部
303-2、303-2b 統合部
304-2 探索部
320-2 記憶部
321-2 音響モデル
322-2 発音辞書
323-2 言語モデル
324-2 言語モデル
325-2b 統合言語モデル
200 学習装置
201 抽出部
202 修正部
203 収集部
204 選択部
205 学習部
206 出力制御部
221 記憶部
222 ディスプレイ
300-2、300-2b 認識装置
301-2 スコア算出部
302-2、302-2b ラティス生成部
303-2、303-2b 統合部
304-2 探索部
320-2 記憶部
321-2 音響モデル
322-2 発音辞書
323-2 言語モデル
324-2 言語モデル
325-2b 統合言語モデル
Claims (14)
- コーパスの生成対象となるドメインに属するドメイン文書から、前記ドメインに特有の表現を表す1つ以上の特有表現を抽出する抽出部と、
前記特有表現を含む複数のテキストデータを収集する収集部と、
複数の前記テキストデータから、前記ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、前記コーパスとして選択する選択部と、
を備える情報処理システム。 - 前記抽出部は、表現の出現しやすさを示す指標、一般的な文書で広く利用されている表現かどうかを示す指標、および、誤認識のしやすさを示す指標のうち少なくとも1つを用いて、前記ドメイン文書から前記特有表現を抽出する、
請求項1に記載の情報処理システム。 - 前記表現の出現しやすさを示す指標は、C-Value、および、単語頻度の少なくとも一方である、
請求項2に記載の情報処理システム。 - 前記一般的な文書で広く利用されている表現かどうかを示す指標は、汎用言語モデルを使用したPerplexity、および、逆文書頻度の少なくとも一方である、
請求項2に記載の情報処理システム。 - 前記収集部は、前記情報処理システムの外部のシステムから得られる複数のテキストデータから、前記特有表現を含む複数の前記テキストデータを収集する、
請求項1に記載の情報処理システム。 - 前記基準は、複数の前記テキストデータに、前記特有表現、および、前記特有表現の構成語の少なくとも一方がどの程度含まれるかを表す指標に基づく基準である、
請求項1に記載の情報処理システム。 - 前記基準は、前記ドメイン文書と、複数の前記テキストデータと、の間の類似度に基づく基準である、
請求項1に記載の情報処理システム。 - 前記類似度は、前記ドメイン文書をベクトル化した第1ベクトルと、前記テキストデータをベクトル化した第2ベクトルと、の間のコサイン類似度である、
請求項7に記載の情報処理システム。 - 選択された前記コーパスを用いて言語モデルを学習する学習部と、
前記言語モデルを用いた音声認識処理を行う認識部と、
をさらに備える、
請求項1に記載の情報処理システム。 - 前記認識部は、学習部により学習された前記言語モデルを含む複数の言語モデルを、リスコアリング、および、重みづけ和の少なくともいずれか1つの手法を用いて統合し、統合した言語モデルを用いた音声認識処理を行う、
請求項9に記載の情報処理システム。 - 抽出された前記特有表現と、収集された前記テキストデータのうち選択された前記テキストデータと、のうち少なくとも一方を出力する出力制御部をさらに備える、
請求項1に記載の情報処理システム。 - 抽出された前記特有表現、および、選択された前記テキストデータ、の少なくとも一方を修正する修正部をさらに備える、
請求項1に記載の情報処理システム。 - 情報処理システムが実行する情報処理方法であって、
コーパスの生成対象となるドメインに属するドメイン文書から、前記ドメインに特有の表現を表す1つ以上の特有表現を抽出する抽出ステップと、
前記特有表現を含む複数のテキストデータを収集する収集ステップと、
複数の前記テキストデータから、前記ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、前記コーパスとして選択する選択ステップと、
を含む情報処理方法。 - コンピュータに、
コーパスの生成対象となるドメインに属するドメイン文書から、前記ドメインに特有の表現を表す1つ以上の特有表現を抽出する抽出ステップと、
前記特有表現を含む複数のテキストデータを収集する収集ステップと、
複数の前記テキストデータから、前記ドメインに属するデータを選択するための予め定められた基準を満たすテキストデータを、前記コーパスとして選択する選択ステップと、
を実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022100794A JP2024001922A (ja) | 2022-06-23 | 2022-06-23 | 情報処理システム、情報処理方法およびプログラム |
CN202310158856.0A CN117290464A (zh) | 2022-06-23 | 2023-02-23 | 信息处理系统、信息处理方法以及存储介质 |
US18/174,092 US20230419959A1 (en) | 2022-06-23 | 2023-02-24 | Information processing systems, information processing method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022100794A JP2024001922A (ja) | 2022-06-23 | 2022-06-23 | 情報処理システム、情報処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024001922A true JP2024001922A (ja) | 2024-01-11 |
Family
ID=89246909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022100794A Pending JP2024001922A (ja) | 2022-06-23 | 2022-06-23 | 情報処理システム、情報処理方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230419959A1 (ja) |
JP (1) | JP2024001922A (ja) |
CN (1) | CN117290464A (ja) |
-
2022
- 2022-06-23 JP JP2022100794A patent/JP2024001922A/ja active Pending
-
2023
- 2023-02-23 CN CN202310158856.0A patent/CN117290464A/zh active Pending
- 2023-02-24 US US18/174,092 patent/US20230419959A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN117290464A (zh) | 2023-12-26 |
US20230419959A1 (en) | 2023-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176804B2 (en) | Analyzing textual data | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
US5949961A (en) | Word syllabification in speech synthesis system | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
US11257484B2 (en) | Data-driven and rule-based speech recognition output enhancement | |
CN112151019B (zh) | 文本处理方法、装置及计算设备 | |
CN114981885A (zh) | 用于自动语音识别的字母数字序列偏置 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN115731921A (zh) | 用无序实体训练端到端口语理解系统 | |
JP2018181181A (ja) | 文処理装置および文処理方法 | |
Larabi-Marie-Sainte et al. | A new framework for Arabic recitation using speech recognition and the Jaro Winkler algorithm | |
Thennattil et al. | Phonetic engine for continuous speech in Malayalam | |
JP4738847B2 (ja) | データ検索装置および方法 | |
US11972758B2 (en) | Enhancing ASR system performance for agglutinative languages | |
Rusko et al. | Recent advances in the Slovak dictation system for judicial domain | |
JP2024001922A (ja) | 情報処理システム、情報処理方法およびプログラム | |
KR20240096898A (ko) | 격자 음성 교정 | |
Qafmolla | Automatic language identification | |
Heintz | Arabic language modeling with stem-derived morphemes for automatic speech recognition | |
Marie-Sainte et al. | A new system for Arabic recitation using speech recognition and Jaro Winkler algorithm | |
Jung et al. | Back from the future: Bidirectional CTC decoding using future information in speech recognition | |
Vidra | Morphological segmentation of Czech words | |
Hasegawa-Johnson et al. | Fast transcription of speech in low-resource languages | |
WO2023166651A1 (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240905 |