JP6004452B2 - 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム - Google Patents
言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム Download PDFInfo
- Publication number
- JP6004452B2 JP6004452B2 JP2014150554A JP2014150554A JP6004452B2 JP 6004452 B2 JP6004452 B2 JP 6004452B2 JP 2014150554 A JP2014150554 A JP 2014150554A JP 2014150554 A JP2014150554 A JP 2014150554A JP 6004452 B2 JP6004452 B2 JP 6004452B2
- Authority
- JP
- Japan
- Prior art keywords
- template
- corpus
- domain
- text
- word string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、上記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップと
を実行する。
上記第2のドメインのコーパスの各文について、上記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列と上記生成したテンプレートとを使用して、上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップ
を含みうる。
上記第2のドメインのコーパスの各文について、上記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列が上記生成したテンプレートで被覆される被覆率を算出するステップと
上記算出した被覆率が所定の値以上である文を上記学習テキストとして選択するステップと
を含みうる。
上記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
をさらに含み、
上記テンプレートで被覆される上記テキストを選択するステップが、
上記第2のドメインのコーパスから上記抽出したテンプレートで被覆されるテキストを上記学習テキストとして選択するステップ
を含みうる。
上記第2のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列と上記抽出したテンプレートとを使用して、上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップと
を含みうる。
上記第2のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列が上記抽出したテンプレートで被覆される被覆率を算出するステップと
上記算出した被覆率が所定の値以上である文を上記学習テキストとして選択するステップと
を含みうる。
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、上記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択する学習テキスト選択部と
を備えている。
本発明に従う第1の実施態様に従う言語モデル用の学習テキストを選択する方法に従って、第1のドメインのコーパスから上記言語モデル用の学習テキストを選択する為のテンプレートを生成し、上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキスト又は前記テンプレートで被覆される被覆率が所定の値以上であるテキストを学習テキストとして選択するステップと、
上記選択された学習テキストを使用して、上記言語モデルを学習するステップと
を含む。
“<bos> He arrived”,“He arrived at”,“arrived at Tokyo”,“at Tokyo now”,“Tokyo now <eos>”
“<bos> * arrived”,“He * at”,“arrived * Tokyo”,“at * now”,“Tokyo * <eos>”
“<bos> He arrived”,“He arrived at”,“arrived at Boston”,“at Boston now”,“Boston now <eos>”
“<bos> * arrived”,“He * at”,“arrived * Boston”,“at * now”,“Boston * <eos>”
「彼/は/今/東京/に/着きました」(/ は、単語境界を表す;以下、同じである)
「彼/は/今」,「は/今/東京」,「今/東京/に」,「東京/に/着きました」
「彼/*/今」,「は/*/東京」,「今/*/に」,「東京/*/着きました」
「彼/は/今/ボストン/に/着きました」
「彼/は/今」,「は/今/ボストン」,「今/ボストン/に」,「ボストン/に/着きました」
「彼/*/今」,「は/*/ボストン」,「今/*/に」,「ボストン/*/着きました」
“<bos> He”,“He arrived”,“arrived at”,“at Tokyo”,“Tokyo now”,“now <eos>”
“<bos> He”,“He arrived”,“arrived at”,“at Boston”,“Boston now”,“now <eos>”
「彼/は/今/東京/に/着き/ました」(/ は、単語境界を表す;以下、同じである)
「彼/は」,「は/今」,「今/東京」,「東京/に」,「に/着き」,「着き/ました」
「彼/は/今/ボストン/に/着き/ました」
「彼/は」,「は/今」,「今/ボストン」,「ボストン/に」,「に/着き」,「着き/ました」
自動音声認識の為のタスクについての発話を人の耳で聴取して転写したテキスト(対象分野コーパス)を用意した。
コンピュータ(701)は、上記対象分野コーパスから取得した分割済の単語列のみを使用して、実施例と同じ言語モデルを学習した。コンピュータ(701)は、当該学習した言語モデルを使用して、自動音声認識実験(比較例)を行った。
Claims (20)
- 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含む、前記方法。 - 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記特殊記号がワイルドカードである、前記方法。 - 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記テンプレートが、前記単語列中の1又は複数の単語を前記特殊記号で置換したものである、前記方法。 - 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第2のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
前記同じ生成技法に従って生成した単語列と前記生成したテンプレートとを使用して、前記第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップ
を含む、前記方法。 - 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第2のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
前記同じ生成技法に従って生成した単語列が前記生成したテンプレートで被覆される被覆率を算出するステップと
前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択するステップと
を含む、前記方法。 - 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を実行することを含み、
前記テンプレートを生成するステップが、
前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
をさらに含み、
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第2のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
前記同じ生成技法に従って生成した単語列と前記抽出したテンプレートとを使用して、前記第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
を含む、前記方法。 - 前記テンプレートを生成するステップが、
前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
をさらに含み、
前記テンプレートで被覆される前記テキストを選択するステップが、
前記第2のドメインのコーパスから前記抽出したテンプレートで被覆されるテキストを前記学習テキストとして選択するステップ
を含む、請求項1〜5のいずれか一項に記載の方法。 - 前記テンプレートで被覆される前記テキストを選択するステップが、
前記第2のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
前記同じ生成技法に従って生成した単語列が前記抽出したテンプレートで被覆される被覆率を算出するステップと
前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択するステップと
を含む、請求項7に記載の方法。 - 前記言語モデルが単語n−グラムに基づく言語モデルである、請求項1〜8のいずれか一項に記載の方法。
- 前記第1のドメインのコーパスが対象分野コーパスであり、
前記第2のドメインのコーパスが対象分野外コーパスである、
請求項1〜9のいずれか一項に記載の方法。 - 言語モデルを学習する方法であって、コンピュータが、
請求項1〜10のいずれか一項に記載の方法に従って、第1のドメインのコーパスから前記言語モデル用の学習テキストを選択する為のテンプレートを生成し、前記第2のドメインのコーパスから前記テンプレートで被覆されるテキスト又は前記テンプレートで被覆される被覆率が所定の値以上であるテキストを学習テキストとして選択するステップと、
前記選択された学習テキストを使用して、前記言語モデルを学習するステップと
を含む、前記方法。 - 言語モデル用の学習テキストを選択するためのコンピュータであって、
第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えている、前記コンピュータ。 - 言語モデル用の学習テキストを選択するためのコンピュータであって、
第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記特殊記号がワイルドカードである、前記コンピュータ。 - 言語モデル用の学習テキストを選択するためのコンピュータであって、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記テンプレートが、前記単語列中の1又は複数の単語を前記特殊記号で置換したものである、前記コンピュータ。 - 言語モデル用の学習テキストを選択するためのコンピュータであって、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記学習テキスト選択部が、
前記第2のドメインのコーパスの各文について、前記テンプレート生成部が生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
前記同じ生成技法に従って生成した単語列と前記生成したテンプレートとを使用して、前記第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する、
前記コンピュータ。 - 言語モデル用の学習テキストを選択するためのコンピュータであって、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記学習テキスト選択部が、
前記第2のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
前記同じ生成技法に従って生成した単語列が前記生成したテンプレートで被覆される被覆率を算出し、
前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択する、
前記コンピュータ。 - 言語モデル用の学習テキストを選択するためのコンピュータであって、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
を備えており、
前記テンプレート生成部がさらに、前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出し、
前記学習テキスト選択部が、
前記第2のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
前記同じ生成技法に従って生成した単語列と前記抽出したテンプレートとを使用して、前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する、
前記コンピュータ。 - 前記テンプレート生成部がさらに、前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出し、
前記学習テキスト選択部が、前記第2のドメインのコーパスから前記抽出したテンプレートで被覆されるテキストを前記学習テキストとして選択する、
請求項12〜16のいずれか一項に記載のコンピュータ。 - 言語モデル用の学習テキストを選択するためのコンピュータ・プログラムであって、コンピュータに、請求項1〜10のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
- 言語モデルを学習するためのコンピュータ・プログラムであって、コンピュータに、請求項11に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014150554A JP6004452B2 (ja) | 2014-07-24 | 2014-07-24 | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
US14/803,324 US9934776B2 (en) | 2014-07-24 | 2015-07-20 | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods |
US14/965,088 US9892727B2 (en) | 2014-07-24 | 2015-12-10 | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods |
US15/827,655 US10418029B2 (en) | 2014-07-24 | 2017-11-30 | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014150554A JP6004452B2 (ja) | 2014-07-24 | 2014-07-24 | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016024759A JP2016024759A (ja) | 2016-02-08 |
JP6004452B2 true JP6004452B2 (ja) | 2016-10-05 |
Family
ID=55167206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014150554A Active JP6004452B2 (ja) | 2014-07-24 | 2014-07-24 | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
Country Status (2)
Country | Link |
---|---|
US (3) | US9934776B2 (ja) |
JP (1) | JP6004452B2 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6004452B2 (ja) | 2014-07-24 | 2016-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
CN107861937B (zh) | 2016-09-21 | 2023-02-03 | 松下知识产权经营株式会社 | 对译语料库的更新方法、更新装置以及记录介质 |
DE102016125162B4 (de) | 2016-12-05 | 2018-07-26 | Ernst-Moritz-Arndt-Universität Greifswald | Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten |
CN108415896B (zh) * | 2017-02-09 | 2022-03-04 | 北京京东尚科信息技术有限公司 | 深度学习模型训练方法、分词方法、训练系统和分词系统 |
CN108288468B (zh) * | 2017-06-29 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
CN107423288A (zh) * | 2017-07-05 | 2017-12-01 | 达而观信息科技(上海)有限公司 | 一种基于无监督学习的中文分词系统及方法 |
CN109284763A (zh) * | 2017-07-19 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 一种生成分词训练数据的方法和服务器 |
KR102509821B1 (ko) * | 2017-09-18 | 2023-03-14 | 삼성전자주식회사 | Oos 문장을 생성하는 방법 및 이를 수행하는 장치 |
JP7122835B2 (ja) * | 2018-02-14 | 2022-08-22 | 株式会社Nttドコモ | 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル |
CN109410949B (zh) * | 2018-10-11 | 2021-11-16 | 厦门大学 | 基于加权有限状态转换器的文本内容添加标点方法 |
CN111353293A (zh) * | 2018-12-21 | 2020-06-30 | 深圳市优必选科技有限公司 | 一种语句材料生成方法及终端设备 |
JP7103957B2 (ja) * | 2019-01-09 | 2022-07-20 | 株式会社Nttドコモ | データ生成装置 |
US10984279B2 (en) * | 2019-06-13 | 2021-04-20 | Wipro Limited | System and method for machine translation of text |
CN110489555B (zh) * | 2019-08-21 | 2022-03-08 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
US11410658B1 (en) * | 2019-10-29 | 2022-08-09 | Dialpad, Inc. | Maintainable and scalable pipeline for automatic speech recognition language modeling |
CN111209396A (zh) * | 2019-12-27 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 实体识别模型的训练方法及实体识别方法、相关装置 |
US11276391B2 (en) | 2020-02-06 | 2022-03-15 | International Business Machines Corporation | Generation of matched corpus for language model training |
CN111444311A (zh) * | 2020-02-26 | 2020-07-24 | 平安科技(深圳)有限公司 | 语义理解模型训练方法、装置、计算机设备和存储介质 |
CN111581455B (zh) * | 2020-04-28 | 2023-03-21 | 北京字节跳动网络技术有限公司 | 文本生成模型的生成方法、装置和电子设备 |
CN111680986B (zh) * | 2020-08-12 | 2020-12-08 | 北京擎盾信息科技有限公司 | 一种串案识别方法及装置 |
CN112559702B (zh) * | 2020-11-10 | 2022-09-30 | 西安理工大学 | 基于Transformer的土木建筑信息领域自然语言问题生成方法 |
CN112634876B (zh) * | 2021-01-04 | 2023-11-10 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112765977B (zh) * | 2021-01-11 | 2023-12-12 | 百果园技术(新加坡)有限公司 | 一种基于跨语言数据增强的分词方法及装置 |
CN113032529B (zh) * | 2021-04-26 | 2021-08-13 | 北京世纪好未来教育科技有限公司 | 英文短语识别方法、装置、介质和电子设备 |
KR102584732B1 (ko) * | 2022-08-18 | 2023-10-05 | 이승현 | 언어 블록에 기반한 언어 학습 서비스 제공 방법 및 장치 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050256715A1 (en) * | 2002-10-08 | 2005-11-17 | Yoshiyuki Okimoto | Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method |
JP5807891B2 (ja) | 2010-10-04 | 2015-11-10 | 国立研究開発法人情報通信研究機構 | 言語モデル学習装置及びコンピュータプログラム |
JP5403696B2 (ja) | 2010-10-12 | 2014-01-29 | 株式会社Nec情報システムズ | 言語モデル生成装置、その方法及びそのプログラム |
JP6004452B2 (ja) | 2014-07-24 | 2016-10-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム |
-
2014
- 2014-07-24 JP JP2014150554A patent/JP6004452B2/ja active Active
-
2015
- 2015-07-20 US US14/803,324 patent/US9934776B2/en active Active
- 2015-12-10 US US14/965,088 patent/US9892727B2/en active Active
-
2017
- 2017-11-30 US US15/827,655 patent/US10418029B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9934776B2 (en) | 2018-04-03 |
JP2016024759A (ja) | 2016-02-08 |
US20180114524A1 (en) | 2018-04-26 |
US20160027433A1 (en) | 2016-01-28 |
US9892727B2 (en) | 2018-02-13 |
US10418029B2 (en) | 2019-09-17 |
US20160163309A1 (en) | 2016-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6004452B2 (ja) | 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
KR101259558B1 (ko) | 문장경계 인식 장치 및 방법 | |
Nelken et al. | Arabic diacritization using weighted finite-state transducers | |
Gales et al. | Unicode-based graphemic systems for limited resource languages | |
WO2014085049A1 (en) | Speech transcription including written text | |
WO2010059191A1 (en) | Stochastic phoneme and accent generation using accent class | |
US20110295606A1 (en) | Contextual conversion platform | |
WO2021154544A1 (en) | Language-agnostic multilingual modeling using effective script normalization | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
Sarma et al. | Development and analysis of speech recognition systems for Assamese language using HTK | |
Hahn et al. | A Comparison of Various Methods for Concept Tagging for Spoken Language Understanding. | |
Prasad et al. | Mining Training Data for Language Modeling Across the World's Languages. | |
JP5979650B2 (ja) | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム | |
Kheang et al. | Solving the phoneme conflict in grapheme-to-phoneme conversion using a two-stage neural network-based approach | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
CN111328416A (zh) | 用于自然语言处理中的模糊匹配的语音模式 | |
CN116686045A (zh) | 在没有完整转录本的情况下的端到端口语理解 | |
JP5888723B2 (ja) | 発音辞書作成装置、発音辞書の生産方法、およびプログラム | |
JP6309852B2 (ja) | 強調位置予測装置、強調位置予測方法及びプログラム | |
JP5522393B2 (ja) | 音響モデル構築装置、音声認識装置、音響モデル構築方法、およびプログラム | |
JP2021085996A (ja) | 音声認識システム、音声認識方法 | |
CN117591800A (zh) | 文本增强方法、装置、电子设备及计算机可读存储介质 | |
US20200117754A1 (en) | System and method for searching audio data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160316 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160316 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160711 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160810 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20160810 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6004452 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |