JP6004452B2 - 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム - Google Patents

言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム Download PDF

Info

Publication number
JP6004452B2
JP6004452B2 JP2014150554A JP2014150554A JP6004452B2 JP 6004452 B2 JP6004452 B2 JP 6004452B2 JP 2014150554 A JP2014150554 A JP 2014150554A JP 2014150554 A JP2014150554 A JP 2014150554A JP 6004452 B2 JP6004452 B2 JP 6004452B2
Authority
JP
Japan
Prior art keywords
template
corpus
domain
text
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014150554A
Other languages
English (en)
Other versions
JP2016024759A (ja
Inventor
岳人 倉田
岳人 倉田
伸泰 伊東
伸泰 伊東
雅史 西村
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2014150554A priority Critical patent/JP6004452B2/ja
Priority to US14/803,324 priority patent/US9934776B2/en
Priority to US14/965,088 priority patent/US9892727B2/en
Publication of JP2016024759A publication Critical patent/JP2016024759A/ja
Application granted granted Critical
Publication of JP6004452B2 publication Critical patent/JP6004452B2/ja
Priority to US15/827,655 priority patent/US10418029B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、言語モデル(LM:Language Model)を改善する為の技法に関する。特には、本発明は、言語モデル用の学習テキストを選択する技法、並びに当該選択された学習テキストを使用して言語モデルを学習する技法に関する。
自動音声認識(ASR:Automatic speech recognition)技術において、言語モデル、特に統計的言語モデルは重要な役割を果たす。統計的言語モデルは、大量の自然言語文からなるコーパス中の単語又は、複数の単語(以下、単語列ともいう)の出現頻度情報をモデル化したものである。
言語モデルを学習する為には、自動音声認識アプリケーションの対象分野(対象ドメインともいう)と一致している分野から集められた学習コーパスが必要である。また、学習コーパスを構築する為には、対象分野における文(以下、対象分野のコーパスともいう)の膨大な量が必要である。しかしながら、対象分野に関連付けられた自然言語文の量は限られているのが通常である。従って、対象分野のコーパスを大量に集めることは難しい。また、特には、対象分野が例えば専門的な分野(例えば、金融分野、科学分野である)である場合には、当該対象分野のコーパスを大量に集めることはさらに難しい。
また、通常は、トレーニング文である大量の自然言語文を用意する為に、対象分野についての発話を人が聞いて、当該人が発話をテキスト文に起こすというディクテーション作業が必要になる。しかしながら、この作業は人手によるものである為にコスト高である。従って、人手によって容易可能なテキスト文の量は限定されてしまう。
このような状況において、比較的収集が容易である機械可読文書、例えば新聞、クローリングされた(crawled)ウェブ・テキスト、又はソーシャル・ネットワーキング・サービス(世界では例えば、Facebook(登録商標)、Twitter(登録商標)、Google+(登録商標)、Myspace(登録商標)、LinkedIn(登録商標)、及びLINE(登録商標)、並びに、日本では例えば、Mixi(登録商標)、GREE(登録商標)、Mobage(登録商標)、及びAmeba(登録商標))のデータ(以下、対象分野外のコーパスともいう)の膨大な量が利用可能である。このような機械可読文書を使用して、言語モデルを学習する為に必要な自然言語文を選択する技術が開発されてきている。
しかしながら、自然言語文は大量にあればよいというものではなく、言語モデルが適用されるアプリケーション(例えば、自動音声認識アプリケーション)の対象分野に応じた適切な自然言語文から言語モデルが構築されることが望ましい。
従って、対象分野の小規模なコーパスに含まれる文と対象分野外のコーパスからの膨大な量の文とを使用して、言語モデルを学習することが現実的なシナリオである。
そこで、対象分野のコーパスから推定される統計モデルに基づいて対象分野外のコーパスから文を選択することが研究されている(下記非特許文献1〜5を参照)。
下記特許文献1は、複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段とともに用いられ、当該コーパスから特定用途に適した言語モデルの学習を行なうための言語モデル学習装置であって、前記特定用途のために予め準備された単語列テンプレートを記憶するためのテンプレート記憶手段と、前記テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンを前記コーパスから抽出するための単語列抽出手段と、予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された変形規則に基づいて、前記単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、前記変形手段により出力される単語列を学習データとして言語モデルの学習を行なうための学習手段とを含む、言語モデル学習装置を記載する(請求項1)。
下記特許文献2は、Web(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する抽出手段と、前記抽出手段が抽出した前記少なくとも1つの単語から単語セットを生成する単語セット生成手段と、前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するWebページ取得手段と、前記Webページ取得手段が取得したWebページから、音声認識のための言語モデルを作成する言語モデル作成手段と、を備えることを特徴とする言語モデル生成装置を記載する(請求項1)。
下記非特許文献6は、データ希薄の問題を解決する為にスキップ−グラムを使用する方法を記載する(Abstract)。スキップグラムは、第1222頁の項「2. Defining skip-grams」に記載の「2-skip-bi-grams」及び「2-skip-tri-grams」それぞれに示されているように、単語列中の一つの単語を削除し、当該削除される前後の単語を隣接させて、bi-gram及びtri-gramとしたものである。
特開2012−78647号公報 特開2012−83543号公報
Robert C. Moore等, "Intelligent Selection of Language Model Training Data", Proceedings of the ACL 2010 Conference Short Papers, 2010, pp. 220-224<URL:http://anthology.aclweb.org//P/P10/P10-2041.pdf>から入手可能 Amittai Axelrod等, "Domain Adaptation via Pseudo In-Domain Data Selection", Proceeding EMNLP '11 Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011, pp. 355-362<URL: http://research.microsoft.com/pubs/155466/emnlp11-select-train-data.pdf>から入手可能 Karl Weilhammer等, "Bootstrapping Language Models for Dialogue Systems", Proceedings of the International Conference on Spoken Language Processing. Version: 1.0 (Final) Distribution: public TALK D6.4 (Part II), December 20, 2006, pp. 59-60<URL: http://svr-www.eng.cam.ac.uk/~sjy/papers/wesy06.pdf>から入手可能 Sameer Maskey等, "Resampling Auxiliary Data for Language Model Adaptation in Machine Translation for Speech", ICASSP, IEEE, pp. 4817-4820, 2009<URL: http://www1.cs.columbia.edu/~smaskey/papers/lm-adapt-icassp09.pdf>から入手可能 Ruhi Sarikaya等, "Rapid Language Model Development using External Resources for New Spoken Dialog Domains", ICASSP, IEEE, pp. 573-576, 2005<URL: http://academiccommons.columbia.edu/download/fedora_content/download/ac:162704/CONTENT/sarikaya_al_05.pdf>から入手可能 David Guthrie等, "A Closer Look at Skip-gram Modelling", Proceedings of the Fifth international Conference on Language Resources and Evaluation LREC-2006, Genoa, Italy, 2006, pp. 1222-1225<URL:http://homepages.inf.ed.ac.uk/ballison/pdf/lrec_skipgrams.pdf>から入手可能
対象分野のコーパスから推定される統計モデルに基づいて対象分野外のコーパスから文を選択する方法としては、当該統計モデルに基づいて対象分野外のコーパスから高い生成確率のある文を選択することがある。当該統計モデルに基づく選択は、語彙が少ない場合には十分に機能しうる。しかしながら、最近、利用可能な語彙の数が膨大な量になり(例えば、最高で100万以上に及ぶ語彙になる)、当該膨大な量の語彙で言語モデルを訓練する必要がある故に、統計モデルに基づいて対象分野外のコーパスから高い生成確率の文を選択することが十分に機能しない。例えば、文中に未知語があるだけで、本来は関連する文でも、当該文に対する確率が非常に小さくなってしまう。
例えば、一つの文“Arrived at Tokyo now”(英文である)を含む対象分野のコーパスを考える。対象分野外のコーパスが上記一つの文に類似する文“Arrived at Boston now”を含むとする。この場合には、対象分野外のコーパスは文“Arrived at Boston now”を含むけれども、対象分野のコーパスが“Boston”を含まない。よって、“Arrived at Tokyo now”から推定される言語モデルは、対象分野外のコーパスに含まれる文“Arrived at Boston now”に対して、膨大な量の語彙の故に、非常に低い生成確率を与えてしまう。
そこで、本発明は、対象分野のコーパスに含まれる文に類似する文を、当該対象分野のコーパスと異なる分野のコーパスである対象分野外のコーパスから効率よく集める技法を提供することを目的とする。
また、本発明は、対象分野のコーパスから推定される統計モデルを使用すること無しに、対象分野のコーパスに含まれる文に類似する文を対象分野外のコーパスから集める技法を提供することを目的とする。
さらに、本発明は、文中に未知語がある場合であっても、当該未知語に関わらず、対象分野のコーパスに含まれる文に類似する文を対象分野外のコーパスから集める技法を提供することを目的とする。
本発明は、言語モデル用の学習テキストを選択する技法を提供する。当該技法は、言語モデル用の学習テキストを選択する方法、言語モデル用の学習テキストを選択するためのコンピュータ、並びに、言語モデル用の学習テキストを選択するためのコンピュータ・プログラム及びそのコンピュータ・プログラム製品を包含しうる。
また、本発明は、言語モデルを学習する技法を提供する。当該技法は、言語モデルを学習する方法、言語モデルを学習するためのコンピュータ、並びに、言語モデルを学習するためのコンピュータ・プログラム及びそのコンピュータ・プログラム製品を包含しうる。
(本発明に従う第1の実施態様)
本発明に従う第1の実施態様において、言語モデル用の学習テキストを選択する方法は、コンピュータが、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、上記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップと
を実行する。
本発明の一つの実施態様において、上記テンプレートで被覆される上記テキストを選択するステップが、
上記第2のドメインのコーパスの各文について、上記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列と上記生成したテンプレートとを使用して、上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップ
を含みうる。
本発明の一つの実施態様において、上記テンプレートで被覆される上記テキストを選択するステップが、
上記第2のドメインのコーパスの各文について、上記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列が上記生成したテンプレートで被覆される被覆率を算出するステップと
上記算出した被覆率が所定の値以上である文を上記学習テキストとして選択するステップと
を含みうる。
本発明の一つの実施態様において、上記テンプレートを生成するステップが、
上記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
をさらに含み、
上記テンプレートで被覆される上記テキストを選択するステップが、
上記第2のドメインのコーパスから上記抽出したテンプレートで被覆されるテキストを上記学習テキストとして選択するステップ
を含みうる。
本発明の一つの実施態様において、上記テンプレートで被覆される上記テキストを選択するステップが、
上記第2のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列と上記抽出したテンプレートとを使用して、上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択するステップと
を含みうる。
本発明の一つの実施態様において、上記テンプレートで被覆される上記テキストを選択するステップが、
上記第2のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
上記同じ生成技法に従って生成した単語列が上記抽出したテンプレートで被覆される被覆率を算出するステップと
上記算出した被覆率が所定の値以上である文を上記学習テキストとして選択するステップと
を含みうる。
(本発明に従う第2の実施態様)
本発明に従う第2の実施態様において、言語モデル用の学習テキストを選択するためのコンピュータは、
(1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法:又は、
(2)第1のドメインのコーパスから選択された単語列を、上記学習テキストを選択する為のテンプレートとする生成技法
の少なくとも1つの生成技法に従って、上記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択する学習テキスト選択部と
を備えている。
本発明の一つの実施態様において、上記学習テキスト選択部が、上記第2のドメインのコーパスの各文について、上記テンプレート生成部が生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列と上記生成したテンプレートとを使用して、上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択しうる。
本発明の一つの実施態様において、上記学習テキスト選択部が、上記第2のドメインのコーパスの各文について、上記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列が上記生成したテンプレートで被覆される被覆率を算出し、当該算出した被覆率が所定の値以上である文を上記学習テキストとして選択しうる。
本発明の一つの実施態様において、上記テンプレート生成部がさらに、上記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出し、上記学習テキスト選択部が、上記第2のドメインのコーパスから上記抽出したテンプレートで被覆されるテキストを上記学習テキストとして選択しうる。
本発明の一つの実施態様において、上記学習テキスト選択部が、上記第2のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列と上記抽出したテンプレートとを使用して、上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキストを上記学習テキストとして選択しうる。
本発明の一つの実施態様において、上記学習テキスト選択部が、上記第2のドメインのコーパスの各文について、上記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、上記同じ生成技法に従って生成した単語列が上記抽出したテンプレートで被覆される被覆率を算出し、上記算出した被覆率が所定の値以上である文を上記学習テキストとして選択しうる。
(本発明に従う第3の実施態様)
本発明に従う第3の実施態様において、コンピュータ・プログラム及びコンピュータ・プログラム製品は、コンピュータに、本発明に従う第1の実施態様に従う言語モデル用の学習テキストを選択する方法の各ステップを実行させる。
(本発明に従う第4の実施態様)
本発明に従う第4の実施態様において、言語モデルを学習する方法は、コンピュータが、
本発明に従う第1の実施態様に従う言語モデル用の学習テキストを選択する方法に従って、第1のドメインのコーパスから上記言語モデル用の学習テキストを選択する為のテンプレートを生成し、上記第1のドメインと異なる第2のドメインのコーパスから上記テンプレートで被覆されるテキスト又は前記テンプレートで被覆される被覆率が所定の値以上であるテキストを学習テキストとして選択するステップと、
上記選択された学習テキストを使用して、上記言語モデルを学習するステップと
を含む。
(本発明に従う第5の実施態様)
本発明に従う第5の実施態様において、言語モデルを学習するためのコンピュータは、本発明に従う第2の実施態様に従うコンピュータが備えているテンプレート生成部及び学習テキスト選択部と、さらに、上記選択された学習テキストを使用して、上記言語モデルを学習する言語モデル学習部とを備えている。
(本発明に従う第6の実施態様)
本発明に従う第6の実施態様において、コンピュータ・プログラム及びコンピュータ・プログラム製品は、コンピュータに、本発明に従う第4の実施態様に従う言語モデルを学習する方法の各ステップを実行させる。
本発明の実施態様に従うコンピュータ・プログラムはそれぞれ、一つ又は複数のフレキシブル・ディスク、MO、CD、DVD、BD、ハードディスク装置、USBに接続可能なメモリ媒体、ROM、MRAM、RAM等の任意のコンピュータ読み取り可能な記録媒体に格納することができる。当該コンピュータ・プログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システム、例えばコンピュータからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、本発明の実施態様に従うコンピュータ・プログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明の実施態様に従うコンピュータ・プログラム製品を提供することも勿論可能であることにも留意されたい。本発明の実施態様に従うコンピュータ・プログラム製品は、例えば、上記コンピュータ・プログラムを記録した記憶媒体、又は、上記コンピュータ・プログラムを伝送する伝送媒体を包含しうる。
本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。
本発明の実施態様において使用されるコンピュータの各ハードウェア構成要素を、複数のマシンと組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記コンピュータ・プログラムをインストールされたコンピュータにおける当該コンピュータ・プログラムの実行が典型的な例として挙げられる。かかる場合、当該コンピュータ・プログラムが当該コンピュータのメモリにロードされて実行されることにより、当該コンピュータ・プログラムは、当該コンピュータを制御し、本発明にかかる処理を実行させる。当該コンピュータ・プログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該コンピュータが特定の機能を直接的に、又は、1.他の言語、コード若しくは表記への変換及び、2.他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。
本発明の実施態様に従うと、対象分野のコーパスに含まれる文に類似する文を、対象分野外のコーパスから、対象分野のコーパスから作成したテンプレートによって効率的に被覆される文を選択することが可能になる。従って、本発明の実施態様に従うと、対象分野のコーパスに含まれる文に類似する文を、当該対象分野のコーパスと異なる分野のコーパスである対象分野外のコーパスから効率よく集める技法を提供することが可能になる。
また、本発明の実施態様に従うと、対象分野のコーパスから推定される統計モデルを使用すること無しに、対象分野のコーパスに含まれる文に類似する文を対象分野外のコーパスから集めることが可能になる。
さらに、本発明の実施態様に従うと、文中に未知語がある場合であっても、当該未知語に関わらず、対象分野のコーパスに含まれる文に類似する文を対象分野外のコーパスから集めることが可能になる。
本発明の実施態様において使用されうるコンピュータの一例を示す図である。 本発明の実施態様に従い、対象分野コーパス(英語)から選択された単語列中の1又は複数の単語を特殊記号に置換し、当該置換された単語列を、学習テキストを選択する為のテンプレートとする場合のダイアグラムを示す。 本発明の実施態様に従い、対象分野コーパス(日本語)から選択された単語列中の1又は複数の単語を特殊記号に置換し、当該置換された単語列を、学習テキストを選択する為のテンプレートとする場合のダイアグラムを示す。 本発明の実施態様に従い、対象分野コーパス(英語)から選択された単語列を、学習テキストを選択する為のテンプレートとする場合のダイアグラムを示す。 本発明の実施態様に従い、対象分野コーパス(日本語)から選択された単語列を、学習テキストを選択する為のテンプレートとする場合のダイアグラムを示す。 本発明の実施態様に従い、対象分野コーパスから選択された単語列中の1又は複数の単語を特殊記号に置換し、当該置換された単語列を、学習テキストを選択する為のテンプレートとする処理の為のフローチャートを示す。 本発明の実施態様に従い、対象分野外コーパスから、図4Aに示す処理で生成されたテンプレートで被覆されるテキストを学習テキストとして選択する処理の為のフローチャートを示す。 本発明の実施態様に従い、対象分野コーパスから選択された単語列を、学習テキストを選択する為のテンプレートとする処理の為のフローチャートを示す。 本発明の実施態様に従い、対象分野外コーパスから、図5Aに示す処理で生成されたテンプレートで被覆されるテキストを学習テキストとして選択する処理の為のフローチャートを示す。 本発明の実施態様に従い、図4B又は図5Bに示す処理で選択された学習テキストを使用して、言語モデルを学習する処理の為のフローチャートを示す。 図1に従うハードウェア構成を好ましくは備えており、本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。
本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。
以下において、本発明の実施態様において使用する用語の定義を説明する。
本発明の実施態様において、「第1のドメインのコーパス」は例えば、対象分野コーパスでありうる。「対象分野コーパス」は、イン・ドメイン・コーパス(In-Domain corpora)とも呼ばれる。「対象分野コーパス」とは、アプリケーション(例えば、自動音声認識アプリケーション、機械翻訳アプリケーション、自然言語処理アプリケーション、光学文字認識(OCR)アプリケーション)が対象とする分野のコーパスであり、特には、自動音声認識アプリケーションが対象とする分野のコーパスでありうる。
本発明の実施態様において、「第2のドメインのコーパス」は例えば、対象分野外コーパスでありうる。「対象分野外コーパス」は、アウト・オブ・ドメイン・コーパス(Out-of-Domain corpora)又は、一般コーパスとも呼ばれる。「対象分野外コーパス」とは、アプリケーションが対象とする分野とは異なるが大量に存在するコーパスであり、例えば比較的収集が容易である文書のコーパスである。当該文書のコーパスは、例えば、新聞、クローリングされたウェブ・テキスト、又は上記したソーシャル・ネットワーキング・サービスのコーパスでありうる。
本発明の実施態様において、「言語モデル」は例えば、単語n−グラム(n−gram)に基づく言語モデルでありうる。単語n−gramでは、対象を単語単位(例えば、分かち書きのある言語(例えば英語)では、スペースによって区切られる単語単位でありうる)で分割し、連続する単語n個組を単位としてモデル化を行う。nの値が1の場合は「ユニグラム」、2の場合は「バイグラム」、及び3の場合は「トライグラム」ともいう。本発明の実施態様において、単語n−gramは、典型的には、単語2−gram、単語3−gram、又は単語4−gramである。
本発明の実施態様において、「単語列」とは、第1のドメインのコーパスから選択された単語列、第1のドメインのコーパスから選択された単語列中の1又は複数の単語を任意の単語又は単語列を表す特殊記号に置換した単語列、第2のドメインのコーパスから選択された単語列、第2のドメインのコーパスから選択された単語列中の1又は複数の単語を任意の単語又は単語列を表す特殊記号に置換した単語列のいずれかを意味しうる。上記単語列中の単語として、BOS(begin of sentence)及びEOS(end of sentence)を含みうる。
本発明の実施態様において、「任意の単語又は単語列を表す特殊記号」は例えば、ワイルドカードでありうる。
本発明の一つの実施態様において、「テンプレート」とは、第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列、又は、第1のドメインのコーパスから選択された単語列そのものでありうる。「テンプレート」は、特には、第1のドメインのコーパスから選択された単語列中の1又は複数の単語を上記特殊記号で置換したものでありうる。
本発明の一つの実施態様において、「第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列」は例えば、単語列中の1又は複数の単語を上記特殊記号で置換したものでありうる。
図1は、本発明の実施態様において使用されうるコンピュータを実現するためのハードウェア構成の一例を示した図である。
本発明の実施態様に従うコンピュータ(101)は、1又は複数のコンピュータから構成されうる。複数のコンピュータは例えば、ハードウェア、ソフトウェア又はそれらの組み合わせが異なる仕様のコンピュータから構成されていてもよい。また、複数のコンピュータは、互いに直接接続されていてもよく、又はネットワークを介して互いに接続されていてもよい。また、コンピュータ(101)は、物理的なコンピュータでなく、例えばデータ・センタなどに設置されたコンピュータ上で実現される仮想マシン、又はクラウド環境(例えば、インターナショナル・ビジネス・マシーンズ・コーポレーション(登録商標)によって提供されているSoftLayer(登録商標))であってもよい。
コンピュータ(101)は例えば、デスクトップ・コンピュータ、ノートブック・コンピュータ、ウルトラブック、又はサーバ・コンピュータでありうる。
コンピュータ(101)は、CPU(102)とメイン・メモリ(103)とを備えており、これらはバス(104)に接続されている。CPU(102)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものである。当該CPU(102)は例えば、インテル社のCore(商標) iシリーズ、Core(商標) 2シリーズ、Atom(商標)シリーズ、Xeon(登録商標)シリーズ、Pentium(登録商標)シリーズ若しくはCeleron(登録商標)シリーズ、AMD(Advanced Micro Devices)社のAシリーズ、Phenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ若しくはSempron(商標)、又は、インターナショナル・ビジネス・マシーンズ・コーポレーションのPower(商標)シリーズでありうる。
バス(104)には、ディスプレイ・コントローラ(105)を介して、ディスプレイ(106)、例えば液晶ディスプレイ(LCD)が接続されうる。また、液晶ディスプレイ(LCD)は例えば、タッチパネル・ディスプレイ又はフローティング・タッチ・ディスプレイであってもよい。ディスプレイ(106)は、コンピュータ(101)上で動作中のソフトウェア、例えば本発明に従う第3の実施態様や第6の実施態様のコンピュータ・プログラムが稼働することによって表示される情報を表示するために使用されうる。
バス(104)には任意的に、例えばSATA又はIDEコントローラ(107)を介して、記憶装置(108)、例えばハードディスク又はソリッド・ステート・ドライブに接続されうる。
バス(104)には任意的に、例えばSATA又はIDEコントローラ(107)を介して、記憶装置(108)、ドライブ(109)、例えばCD、DVD又はBDドライブが接続されうる。
バス(104)には、周辺装置コントローラ(110)を介して、例えばキーボード・マウス・コントローラ又はUSBバスを介して、任意的に、キーボード(111)及びマウス(112)が接続されうる。
記憶装置(108)には、オペレーティング・システム、Windows(登録商標)OS、UNIX(登録商標)、Linux(登録商標)(例えば、RedHat(登録商標)、Debian(登録商標))、MacOS(登録商標)、及びJ2EEなどのJava(登録商標)処理環境、Java(登録商標)アプリケーション、Java(登録商標)仮想マシン(VM)、Java(登録商標)実行時(JIT)コンパイラを提供するプログラム、本発明の実施態様に従うコンピュータ・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ(103)にロード可能なように記憶されうる。
記憶装置(108)は、コンピュータ(101)内に内蔵されていてもよく、当該コンピュータ(101)がアクセス可能なようにケーブル(例えば、USBケーブル)を介して接続されていてもよく、又は、当該コンピュータ(101)がアクセス可能なように有線又は無線ネットワークを介して接続されていてもよい。
ドライブ(109)は、必要に応じて、例えばCD−ROM、DVD−ROM又はBD−ROMからプログラム、例えばオペレーティング・システム、又はアプリケーション・プログラム(例えば、本発明に従う第3の実施態様や第6の実施態様のコンピュータ・プログラム)を記憶装置(108)にインストールするために使用されうる。
通信インタフェース(114)は、例えばイーサネット(登録商標)・プロトコルに従う。通信インタフェース(114)は、通信コントローラ(113)を介してバス(104)に接続され、コンピュータ(101)を通信回線(115)に有線又は無線接続する役割を担い、コンピュータ(101)のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インタフェース層を提供する。通信回線は例えば、有線LAN接続規格に基づく有線LAN環境、又は無線LAN接続規格に基づく無線LAN環境、例えばIEEE802.11a/b/g/nなどのWi−Fi無線LAN環境、若しくは携帯電話網環境(例えば、3G、又は4G(LTEを含む)環境)でありうる。
コンピュータ(101)は、通信回線(115)を介して例えば他の装置(例えば、他のコンピュータ(例えば、サーバ・コンピュータ)又はネットワーク・アタッチト・ストレージ)からのデータを受信し、記憶装置(108)上に格納しうる。
下記図2A及び図2Bそれぞれは、本発明の実施態様に従い、対象分野コーパスから選択された単語列中の1又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとし、そして、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する為のダイアグラムを示す。
図2Aは、上記対象分野コーパスに格納されている文の言語が英語である場合の例を示す。
ステップ201において、コンピュータ(101)は、対象分野コーパス(221)から一つの文“He arrived at Tokyo now”(英文である)を取り出す。そして、コンピュータ(101)は、当該文において、終止符(ピリオド)を取り除く。代替的には、コンピュータ(101)は、当該文において、終止符を取り除かなくてもよい。終止符を取り除かない場合には、終止符も、通常の単語と同じように、一つの単語として取り扱われる。
ステップ202において、コンピュータ(101)は、対象分野コーパス(221)から取り出した上記文の前にBOSを示す記号<bos>及び、当該文の最後にEOSを示す記号<eos>を追加する。当該単語の追加後の文は、“<bos> He arrived at Tokyo now <eos>”である。
ステップ203において、コンピュータ(101)は、文“He arrived at Tokyo now”に対して、単語分割を行い、その結果に含まれる単語3−gramを単位として列挙する。すなわち、コンピュータ(101)は、文“He arrived at Tokyo now”から、1単語ずつシフトしながら3つの単語を含む単語列を選択する。当該単語3−gram単位への分割結果として生成される単語列は、下記の通りである。
“<bos> He arrived”,“He arrived at”,“arrived at Tokyo”,“at Tokyo now”,“Tokyo now <eos>”
上記分割結果に示すように、当該単語3−gram単位への分割において、記号<bos>及び記号<eos>それぞれは、一つの単語として扱われる。
ステップ203において、コンピュータ(101)はさらに、上記単語3−gram単位への分割により生成された5つの単語列それぞれにおいて、真ん中にある1つの単語を、任意の単語を表す特殊記号(例えば、アスタリスク)で置換する。当該置換の結果として生成する単語列(穴あき単語列)は、下記の通りである。
“<bos> * arrived”,“He * at”,“arrived * Tokyo”,“at * now”,“Tokyo * <eos>”
上記置換の結果として生成する単語列は、単語3−gram単位への分割により生成した単語列中の一つの単語を特殊記号で単語が置換されているので、穴あき単語3−gramによる穴あき単語列ともいえる。
コンピュータ(101)は、対象分野コーパス(221)から取り出した上記文以外の全ての文それぞれについて、ステップ201〜203を繰り返し行う。
ステップ204において、コンピュータ(101)は、上記置換の結果として生成する単語列を、学習テキストを選択する為のテンプレートとする。
ステップ204において、コンピュータ(101)は、任意的に、対象分野コーパス(221)中の全ての文それぞれについてステップ201〜203を繰り返し行った結果に基づいて、ステップ204で生成したテンプレートから、出現回数の多いテンプレートを抽出し、取得しうる。
以下の説明においては、ステップ204で取得したテンプレート全てが使用されるものとする。
ステップ211において、コンピュータ(101)は、対象分野外コーパス(223)から一つの文“He arrived at Boston now”(英文である)を取り出す。そして、コンピュータ(101)は、上記ステップ201において終止符が取り除かれていることに応じて、当該文において、終止符を取り除く。コンピュータ(101)は、上記ステップ201において終止符が取り除かれていない場合には、当該文から終止符を取り除かない。
ステップ212において、コンピュータ(101)は、上記ステップ202で説明した処理と同じようにして、対象分野外コーパス(223)から取り出した上記文の前にBOSを示す記号<bos>及び、当該文の最後にEOSを示す記号<eos>を追加する。当該単語の追加後の文は、“<bos> He arrived at Boston now <eos>”である。
ステップ213において、コンピュータ(101)は、上記ステップ203で説明した生成技法と同じ生成技法に従って、文“He arrived at Boston now” に対して、単語分割を行い、その結果に含まれる単語3−gramを単位として列挙する。当該単語3−gram単位への分割結果として生成される単語列は、下記の通りである。
“<bos> He arrived”,“He arrived at”,“arrived at Boston”,“at Boston now”,“Boston now <eos>”
ステップ213において、コンピュータ(101)はさらに、上記単語3−gram単位への分割により生成された5つの単語列それぞれにおいて、真ん中にある1つの単語を、任意の単語を表す特殊記号(例えば、アスタリスク)で置換する。当該置換の結果として生成する単語列(穴あき単語列)は、下記の通りである。
“<bos> * arrived”,“He * at”,“arrived * Boston”,“at * now”,“Boston * <eos>”
ステップ214において、コンピュータ(101)は、ステップ213で生成した穴あき単語列が、ステップ204で生成したテンプレートで被覆されるかどうかを判断する。すなわち、コンピュータ(101)は、ステップ213で生成した穴あき単語列とステップ204で生成したテンプレートとが一致するかどうかを判断する。図2Aに示すように、5つの穴あき単語列中、3つの穴あき単語列(“<bos> * arrived”,“He * at”,及び“at * now”)がテンプレートと一致する。
ステップ215において、コンピュータ(101)は、ステップ213で生成した穴あき単語列が、ステップ204で生成したテンプレートで被覆される被覆率を計算する。上記したとおり、5つの穴あき単語列中、3つの穴あき単語列がテンプレートと一致することから、被覆率は60%(=(3/5)×100)である。
ステップ216において、コンピュータ(101)は、被覆率が所定の値以上である文を学習テキストとして選択する。ここで、被覆率が50%以上である文が学習テキストとして選択されるように設定がされているとする。コンピュータ(101)は、文“He arrived at Tokyo now”についての被覆率が60%であることから、文“He arrived at Tokyo now”を学習テキストとして選択する。学習テキストとして選択された当該文は、言語モデルの学習の為に使用されうる。対象分野外コーパス(223)から選択された当該文は、言語モデルを学習する上で、対象分野コーパス(221)にない新しい学習テキストである。
図2Bは、上記対象分野コーパスに格納されている文の言語が日本語である場合の例を示す。
ステップ231において、コンピュータ(101)は、対象分野コーパス(251)から一つの文「彼は今東京に着きました。」(日本語文である)を取り出す。そして、コンピュータ(101)は、当該文において、句読点(句点又は読点の一方だけでもよい;以下、同じである)を取り除く。代替的には、当該文において、句読点を取り除かなくてもよい。句読点を取り除かない場合には、句読点も、通常の単語と同じように、一つの単語として取り扱われる。
ステップ232において、コンピュータ(101)は、対象分野コーパス(251)から取り出した上記文に対して単語分割を行う。英語と異なり、日本語のように単語単位で分割されていない(すなわち、分かち書きされていない)言語の場合には、まず、文を単語単位での分割処理をする必要がある。単語単位の粒度は、単語分割器に依存して変わりうる。当該単語分割の結果は、下記の通りである。
「彼/は/今/東京/に/着きました」(/ は、単語境界を表す;以下、同じである)
なお、ステップ232では、上記ステップ202で示した記号<bos>及び記号<eos>が付加されない例を示す。
ステップ233において、コンピュータ(101)は、上記ステップ232での単語分割の結果に含まれる単語3−gramを単位として列挙する。すなわち、コンピュータ(101)は、文「彼/は/今/東京/に/着きました」から、1単語ずつシフトしながら3つの単語を含む単語列を選択する。当該単語3−gram単位への分割結果として生成される単語列は、下記の通りである。
「彼/は/今」,「は/今/東京」,「今/東京/に」,「東京/に/着きました」
ステップ233において、コンピュータ(101)はさらに、上記単語3−gram単位への分割により生成された4つの単語列それぞれにおいて、真ん中にある1つの単語を、任意の単語を表す特殊記号(例えば、アスタリスク)で置換する。当該置換の結果として生成する単語列(穴あき単語列)は、下記の通りである。
「彼/*/今」,「は/*/東京」,「今/*/に」,「東京/*/着きました」
上記置換の結果として生成する単語列は、単語3−gram単位への分割により生成した単語列中の一つの単語を特殊記号で単語が置換されているので、穴あき単語3−gramによる穴あき単語列ともいえる。
コンピュータ(101)は、対象分野コーパス(251)から取り出した上記文以外の全ての文それぞれについて、ステップ231〜233を繰り返し行う。
ステップ234において、コンピュータ(101)は、上記置換の結果として生成する単語列を、学習テキストを選択する為のテンプレートとする。
ステップ234において、コンピュータ(101)は、任意的に、対象分野コーパス(251)中の全ての文それぞれについてステップ231〜233を繰り返し行った結果に基づいて、ステップ234で生成したテンプレートから、出現回数の多いテンプレートを抽出し、取得しうる。
以下の説明においては、ステップ234で取得したテンプレート全てが使用されるものとする。
ステップ241において、コンピュータ(101)は、対象分野外コーパス(253)から一つの文「彼は今ボストンに着きました。」(日本語文である)を取り出す。そして、コンピュータ(101)は、上記ステップ231において句読点が取り除かれていることに応じて、当該文において、句読点を取り除く。コンピュータ(101)は、上記ステップ231において句読点が取り除かれていない場合には、当該文から句読点を取り除かない。
ステップ242において、コンピュータ(101)は、上記ステップ232で説明した生成技法と同じ生成技法に従って(すなわち、上記ステップ232で使用した同じ単語分割器を使用して)、対象分野外コーパス(253)から取り出した上記文に対して単語分割を行う。当該単語分割の結果は、下記の通りである。
「彼/は/今/ボストン/に/着きました」
ステップ243において、コンピュータ(101)は、上記ステップ233での単語分割の結果に含まれる単語3−gramを単位として列挙する。当該単語3−gram単位への分割の結果として生成される単語列は、下記の通りである。
「彼/は/今」,「は/今/ボストン」,「今/ボストン/に」,「ボストン/に/着きました」
ステップ243において、コンピュータ(101)はさらに、上記単語3−gram単位への分割により生成された4つの単語列それぞれにおいて、真ん中にある1つの単語を、任意の単語を表す特殊記号(例えば、アスタリスク)で置換する。当該置換の結果として生成する単語列(穴あき単語列)は、下記の通りである。
「彼/*/今」,「は/*/ボストン」,「今/*/に」,「ボストン/*/着きました」
ステップ244において、コンピュータ(101)は、ステップ243で生成した穴あき単語列が、ステップ234で生成したテンプレートで被覆されるかどうかを判断する。すなわち、コンピュータ(101)は、ステップ243で生成した穴あき単語列とステップ234で生成したテンプレートとが一致するかどうかを判断する。図2Bに示すように、4つの穴あき単語列中、2つの穴あき単語列(「彼/*/今」,及び「今/*/に」)がテンプレートと一致する。
ステップ245において、コンピュータ(101)は、ステップ243で生成した穴あき単語列が、ステップ234で生成したテンプレートで被覆される被覆率を計算する。上記したとおり、4つの穴あき単語列中、2つの穴あき単語列がテンプレートと一致することから、被覆率は50%(=(2/4)×100)である。
ステップ246において、コンピュータ(101)は、被覆率が所定の値以上である文を学習テキストとして選択する。ここで、被覆率が50%以上である文が学習テキストとして選択されるように設定がされているとする。コンピュータ(101)は、文「彼は今東京に着きました。」についての被覆率が50%であることから、文「彼は今東京に着きました。」を学習テキストとして選択する。学習テキストとして選択された当該文は、言語モデルの学習の為に使用されうる。対象分野外コーパス(253)から選択された当該文は、言語モデルを学習する上で、対象分野コーパス(251)にない新しい学習テキストである。
下記図3A及び図3Bそれぞれは、本発明の実施態様に従い、対象分野コーパスから選択された単語列を、学習テキストを選択する為のテンプレートとし、そして、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する為のダイアグラムを示す。
図3Aは、上記対象分野コーパスに格納されている文の言語が英語である場合の例を示す。
ステップ301において、コンピュータ(101)は、対象分野コーパス(321)から一つの文“He arrived at Tokyo now”(英文である)を取り出す。そして、コンピュータ(101)は、当該文において、終止符(ピリオド)を取り除く。代替的には、コンピュータ(101)は、当該文において、終止符を取り除かなくてもよい。終止符を取り除かない場合には、終止符も、通常の単語と同じように、一つの単語として取り扱われる。
ステップ302において、コンピュータ(101)は、対象分野コーパス(321)から取り出した上記文の前にBOSを示す記号<bos>及び、当該文の最後にEOSを示す記号<eos>を追加する。当該単語の追加後の文は、“<bos> He arrived at Tokyo now <eos>”である。
ステップ303において、コンピュータ(101)は、文“He arrived at Tokyo now”に対して、単語分割を行い、その結果に含まれる単語2−gramを単位として列挙する。すなわち、コンピュータ(101)は、文“He arrived at Tokyo now”から、1単語ずつシフトしながら2つの単語を含む単語列を選択する。当該単語2−gramへの分割の結果として生成される単語列は、下記の通りである。
“<bos> He”,“He arrived”,“arrived at”,“at Tokyo”,“Tokyo now”,“now <eos>”
上記分割結果に示すように、当該単語2−garm単位への分割において、記号<bos>及び記号<eos>それぞれは、一つの単語として扱われる。
コンピュータ(101)は、対象分野コーパス(321)から取り出した上記文以外の全ての文それぞれについて、ステップ301〜303を繰り返し行う。
ステップ304において、コンピュータ(101)は、上記生成した単語列を、学習テキストを選択する為のテンプレートとする。
ステップ304において、コンピュータ(101)は、任意的に、対象分野コーパス(321)中の全ての文それぞれについてステップ301〜303を繰り返し行った結果に基づいて、ステップ304でのテンプレートから、当該テンプレートと同じ単語列が所定の回数よりも多く出現するテンプレートを抽出しうる。すなわち、コンピュータ(101)は、ステップ234でテンプレートのうちから、所定の回数よりも多く出現するテンプレートを抽出しうる。
以下の説明においては、ステップ304でのテンプレート全てが使用されるものとする。
ステップ311において、コンピュータ(101)は、対象分野外コーパス(323)から一つの文“He arrived at Boston now”(英文である)を取り出す。そして、コンピュータ(101)は、上記ステップ301において終止符が取り除かれていることに応じて、当該文において、終止符を取り除く。コンピュータ(101)は、上記ステップ301において終止符が取り除かれていない場合には、当該文から終止符を取り除かない。
ステップ312において、コンピュータ(101)は、上記ステップ302で説明した処理と同じようにして、対象分野外コーパス(323)から取り出した上記文の前にBOSを示す記号<bos>及び、当該文の最後にEOSを示す記号<eos>を追加する。当該単語の追加後の文は、“<bos> He arrived at Boston now <eos>”である。
ステップ313において、コンピュータ(101)は、上記ステップ303で説明した生成技法と同じ生成技法に従って、文“He arrived at Boston now” に対して、単語分割を行い、その結果に含まれる単語2−gramを単位として列挙する。当該単語3−gram単位への分割結果として生成される単語列は、下記の通りである。
“<bos> He”,“He arrived”,“arrived at”,“at Boston”,“Boston now”,“now <eos>”
ステップ314において、コンピュータ(101)は、ステップ313で生成した単語列が、ステップ304で生成したテンプレートで被覆されるかどうかを判断する。すなわち、コンピュータ(101)は、ステップ313で生成した単語列とステップ304で生成したテンプレートとが一致するかどうかを判断する。図3Aに示すように、6つの単語列中、4つの単語列(“<bos> He”,“He arrived”,“arrived at”,及び“now <eos>”)がテンプレートと一致する。
ステップ315において、コンピュータ(101)は、ステップ313で生成した単語列が、ステップ304で生成したテンプレートで被覆される被覆率を計算する。上記したとおり、6つの単語列中、4の単語列がテンプレートと一致することから、被覆率は約67%(=(4/6)×100)である。
ステップ316において、コンピュータ(101)は、被覆率が所定の値以上である文を学習テキストとして選択する。ここで、被覆率が60%以上である文が学習テキストとして選択されるように設定がされているとする。コンピュータ(101)は、文“He arrived at Tokyo now”についての被覆率が67%であることから、文“He arrived at Tokyo now”を学習テキストとして選択する。学習テキストとして選択された当該文は、言語モデルの学習の為に使用されうる。対象分野外コーパス(323)から選択された当該文は、言語モデルを学習する上で、対象分野コーパス(321)にない新しい学習テキストである。
図3Bは、上記対象分野コーパスに格納されている文の言語が日本語である場合の例を示す。
ステップ331において、コンピュータ(101)は、対象分野コーパス(351)から一つの文「彼は今東京に着きました。」(日本語文である)を取り出す。そして、コンピュータ(101)は、当該文において、句読点(句点又は読点の一方だけでもよい;以下、同じである)を取り除く。代替的には、当該文において、句読点を取り除かなくてもよい。句読点を取り除かない場合には、句読点も、通常の単語と同じように、一つの単語として取り扱われる。
ステップ332において、コンピュータ(101)は、対象分野コーパス(351)から取り出した上記文に対して単語分割を行う。単語単位の粒度は、単語分割器に依存して変わりうる。当該単語分割の結果は、下記の通りである。
「彼/は/今/東京/に/着き/ました」(/ は、単語境界を表す;以下、同じである)
なお、ステップ332では、上記ステップ302で示した記号<bos>及び記号<eos>が付加されない例を示す。
ステップ333において、コンピュータ(101)は、上記ステップ332での単語分割の結果に含まれる単語2−gramを単位として列挙する。すなわち、コンピュータ(101)は、文「彼/は/今/東京/に/着き/ました」から、1単語ずつシフトしながら2つの単語を含む単語列を選択する。当該単語2−gram単位への分割結果として生成される単語列は、下記の通りである。
「彼/は」,「は/今」,「今/東京」,「東京/に」,「に/着き」,「着き/ました」
コンピュータ(101)は、対象分野コーパス(351)から取り出した上記文以外の全ての文それぞれについて、ステップ331〜333を繰り返し行う。
ステップ334において、コンピュータ(101)は、上記生成した単語列を、学習テキストを選択する為のテンプレートとする。
ステップ334において、コンピュータ(101)は、任意的に、対象分野コーパス(351)中の全ての文それぞれについてステップ331〜333を繰り返し行った結果に基づいて、ステップ334で生成したテンプレートから、出現回数の多いテンプレートを抽出し、取得しうる。
以下の説明においては、ステップ334で取得したテンプレート全てが使用されるものとする。
ステップ341において、コンピュータ(101)は、対象分野外コーパス(353)から一つの文「彼は今ボストンに着きました。」(日本語文である)を取り出す。そして、コンピュータ(101)は、上記ステップ331において句読点が取り除かれていることに応じて、当該文において、句読点を取り除く。コンピュータ(101)は、上記ステップ331において句読点が取り除かれていない場合には、当該文から句読点を取り除かない。
ステップ342において、コンピュータ(101)は、上記ステップ332で説明した生成技法と同じ生成技法に従って(すなわち、上記ステップ232で使用した同じ単語分割器を使用して)、対象分野外コーパス(353)から取り出した上記文に対して単語分割を行う。当該単語分割の結果は、下記の通りである。
「彼/は/今/ボストン/に/着き/ました」
ステップ343において、コンピュータ(101)は、上記ステップ333での単語分割の結果に含まれる単語2−gramを単位として列挙する。当該単語2−gram単位への分割の結果として生成する単語列は、下記の通りである。
「彼/は」,「は/今」,「今/ボストン」,「ボストン/に」,「に/着き」,「着き/ました」
ステップ344において、コンピュータ(101)は、ステップ343で生成した単語列が、ステップ334で生成したテンプレートで被覆されるかどうかを判断する。すなわち、コンピュータ(101)は、ステップ343で生成した単語列とステップ334で生成したテンプレートとが一致するかどうかを判断する。図3Bに示すように、6つの単語列中、4つの単語列(「彼/は」,「は/今」,「に/着き」,及び「着き/ました」)がテンプレートと一致する。
ステップ345において、コンピュータ(101)は、ステップ343で生成した単語列が、ステップ334で生成したテンプレートで被覆される被覆率を計算する。上記したとおり、6つの単語列中、4つの単語列がテンプレートと一致することから、被覆率は約67%(=(4/6)×100)である。
ステップ346において、コンピュータ(101)は、被覆率が所定の値以上である文を学習テキストとして選択する。ここで、被覆率が50%以上である文が学習テキストとして選択されるように設定がされているとする。コンピュータ(101)は、文「彼は今東京に着きました。」についての被覆率が約67%であることから、文「彼は今東京に着きました。」を学習テキストとして選択する。学習テキストとして選択された当該文は、言語モデルの学習の為に使用されうる。対象分野外コーパス(353)から選択された当該文は、言語モデルを学習する上で、対象分野コーパス(351)にない新しい学習テキストである。
図4A及び図4Bはそれぞれ、本発明の実施態様に従い、対象分野コーパスから選択された単語列中の1又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとする処理の為のフローチャート、及び、対象分野外コーパスから、上記生成されたテンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理の為のフローチャートを示す。
(図4A:テンプレートの生成処理)
ステップ401において、コンピュータ(101)は、対象分野コーパス(491)から選択された単語列中の1又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとする処理を開始する。
ステップ402において、コンピュータ(101)は、対象分野コーパス(491)から一つの文(単語列からなる)を選択する。コンピュータ(101)は、対象分野コーパス(491)から取り出した当該文において、終止符(ピリオド)や句読点(句点又は読点の一方だけでもよい)を取り除いてもよい。代替的には、当該文において、句読点を取り除かなくてもよい。句読点を取り除かない場合には、句読点も、通常の単語と同じように、一つの単語として取り扱われる。なお、句読点を取り除くタイミングは、下記ステップ405での単語分割の実行後であってもよい。例えば、ステップ405での単語分割を統計的に行う場合に、当該単語分割用のモデルが句読点なしで学習されている場合には、単語分割の実行前に句読点を除外することが望ましく、一方、当該単語分割用のモデルが句読点ありで学習されている場合には、単語分割の実行後に句読点を除外することが望ましい。
ステップ403において、コンピュータ(101)は、ステップ402で選択した文又は、終止符や句読点を取り除いた文の前にBOSを示す記号(例えば、<bos>)及び、当該文の最後にEOSを示す記号(例えば、<eos>)を追加するかどうかを判断する。コンピュータ(101)は、上記記号を追加することに応じて、処理をステップ404に進める。一方、コンピュータ(101)は、上記記号を追加しないことに応じて、処理をステップ405に進める。
ステップ404において、コンピュータ(101)は、ステップ402で選択した文又は、終止符や句読点を取り除いた文の前にBOSを示す記号及び、当該文の最後にEOSを示す記号を追加する。
なお、図4Aに示すフローチャートにおいて、ステップ403及びステップ404の処理を予め省略するようにしてもよい。
ステップ405において、コンピュータ(101)は、対象分野コーパス(491)の文、又はステップ404の処理を施した文(以下、「対象分野コーパス(491)から選択された文」という;当該選択された文は単語列でもある)の単語列から、学習テキストを選択する為のテンプレートを生成する。コンピュータ(101)は、対象分野コーパス(491)から選択された文の単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を生成する。そして、コンピュータ(101)は、当該置換された単語列を、上記テンプレートとする。
単語列中の1又は複数の単語を任意の単語又は単語列を表す特殊記号に置換することは、対象分野コーパス(491)から選択された文中の任意の位置にある単語でありうる。当該任意の位置にある単語は例えば、上記選択された単語列の先頭から1つの単語若しくは複数の単語、上記選択された単語列の先頭の単語と最後の単語との間にある1つの単語若しくは複数の単語、又は、上記選択された単語列の最後から1つの単語若しくは複数の単語でありうる。
ステップ405において、コンピュータ(101)は例えば、対象分野コーパス(491)から選択された文に対して、単語分割を行い、その結果に含まれる単語n−gramを単位として列挙しうる。なお、単語分割の代わりに、上記文に対して形態素解析を行っても良いが、形態素解析では単語分割と同時に品詞の付与を行うより高度な処理である。従って、本発明の実施態様において品詞は必要でないことから、単語分割の処理だけで十分である。ここで、当該単語n−gramにおいて、nは例えば、2〜4でありうる。特には、nは、2〜3でありうる。すなわち、コンピュータ(101)は、対象分野コーパス(491)から選択された文から、1単語ずつシフトしながらn個の単語を含む単語列を選択する。当該単語n−gram単位への分割において、単語列が特殊記号を含む場合には、当該特殊記号は、1単語として処理される。また、当該単語n−gram単位への分割において、単語列が終止符や句読点を含む場合には、当該終止符や当該句読点は、1単語として処理される。そして、コンピュータ(101)は、当該単語n−gram単位への分割結果として生成された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換する。当該特殊記号で置換された単語列は、単語n−gram単位への分割の結果として生成された単語列中の一つの単語を特殊記号で単語が置換されているので、穴あき単語n−gramによる穴あき単語列ともいえる。すなわち、任意のn(nは整数)に対する単語n−gramに対して、中間部分又は、最初若しくは最後の部分任意の位置(特には、中間部分)を穴あきにすることができる。
ステップ406において、コンピュータ(101)は、対象分野コーパス(491)において、ステップ402〜ステップ405の処理が未処理である文があるかを判断する。コンピュータ(101)は、上記処理が未処理である文があることに応じて、処理をステップ402に戻し、ステップ402〜ステップ406を繰り返す。一方、コンピュータ(101)は、上記処理が未処理である文がないことに応じて、処理をステップ407に進める。
また、コンピュータ(101)は、ステップ402〜ステップ406を繰り返すことに応じて、ステップ405で生成したテンプレートが、出現する頻度を例えばカウンタを使用して算出しうる。また、コンピュータ(101)は、ステップ405で生成したテンプレートに当該出現頻度を関連付けうる。
ステップ407において、コンピュータ(101)は、ステップ405で生成したテンプレートから、該テンプレートと同じ単語列が所定の回数よりも多く出現するテンプレートを抽出する。
上記所定の回数が1に設定されている場合には、コンピュータ(101)は、ステップ405で生成したテンプレートの全てを抽出することになる。
ステップ407において、コンピュータ(101)はさらに、上記抽出したテンプレートを、テンプレートを格納する記録媒体(492)に格納しうる。
なお、図4Aに示すフローチャートにおいて、ステップ407に示すテンプレートの抽出処理を予め省略するようにしてもよい。
ステップ408において、コンピュータ(101)は、対象分野コーパスから選択された単語列中の1又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとする処理を終了する。
(図4B:言語モデル用の学習テキストの選択処理)
ステップ411において、コンピュータ(101)は、対象分野外コーパス(493)から、図4Aのステップ405で生成されたテンプレート又はステップ407で抽出されたテンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理を開始する。
ステップ412において、コンピュータ(101)は、対象分野外コーパス(493)から一つの文を選択する。コンピュータ(101)は、上記ステップ402において終止符や句読点が取り除かれていることに応じて、対象分野外コーパス(493)から取り出した文において、終止符や句読点を取り除きうる。
ステップ413において、コンピュータ(101)は、上記ステップ403と同じように、ステップ412で選択した文又は、終止符や句読点を取り除いた文の前にBOSを示す記号及び、当該文の最後にEOSを示す記号を追加するかどうかを判断する。コンピュータ(101)は、上記ステップ403で上記記号が追加されていることに応じて、処理をステップ414に進める。一方、コンピュータ(101)は、上記ステップ403で上記記号が追加されていないことに応じて、処理をステップ415に進める。
ステップ414において、コンピュータ(101)は、ステップ412で選択した文又は、終止符や句読点を取り除いた文の前にBOSを示す記号及び、当該文の最後にEOSを示す記号を追加する。
なお、図4Aに示すステップ403及びステップ404の処理が予め省略されている場合には、図4Bに示すフローチャートにおいても同様に、ステップ413及びステップ414の処理を予め省略するようにしうる。
ステップ415において、コンピュータ(101)は、図4Aのステップ405に示すテンプレートの生成技法と同じ生成技法で単語列を生成する。すなわち、コンピュータ(101)は、対象分野外コーパス(493)の文、又はステップ414の処理を施した文(以下、「対象分野外コーパス(493)から選択された文」という)に対して、単語分割を行い、その結果に含まれる単語n−gramに従い単語単位を列挙しうる。ここで、当該単語n−gramにおいて、nはステップ405と同じ値である。
引き続き、コンピュータ(101)は、ステップ415において、例えば、図4Aのステップ405の説明において述べたように、当該単語n−gram単位への分割結果として生成された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を生成する。
ステップ416において、コンピュータ(101)は、図4Aのステップ405で生成されたテンプレート又はステップ407で抽出されたテンプレートを、テンプレートを格納する記録媒体(492)から読み出し、そして、ステップ415で生成した単語列が、上記記録媒体(492)から読み出したテンプレートで被覆される被覆率を算出する。上記単語列が上記テンプレートで被覆されるとは、当該単語列が上記テンプレートの単語列と一致することをいう。但し、上記テンプレートが任意の単語を表す特殊記号(例えば、アスタリスク)を有している場合には、上記テンプレート中の当該特殊記号に対応する上記単語列の文字は任意の単語でよい。また、コンピュータ(101)は、単純に被覆率を計算するだけでなく、上記テンプレートごとに重要度を与えて、当該重要度に基づいて、重み付けされた被覆率を使用してもよい。上記重要度は例えば、上記単語列がどの程度頻繁に対象分野コーパス(491)に出現しているかに基づいて設定されうる。また、上記被覆率の算出において、コンピュータ(101)は、対象分野外コーパス(493)の文から上記テンプレートの抽出と同じ生成技法を使用して単語列を列挙し、そして当該列挙された単語列が、上記テンプレートで被覆されているかを調べる。当該被覆率計算の為の分母の数字は、対象分野外コーパス(493)の態様としている文に基づいて決まる。従って、上記被覆率を算出する上で、対象分野コーパス(491)に含まれる文と対象分野外コーパス(493)に含まれる文との文の長さが同じでない場合であっても問題無い。
ステップ417において、コンピュータ(101)は、ステップ417で算出した被覆率が所定の値以上である文を、言語モデル用の学習テキストとして選択する。コンピュータ(101)は、当該学習テキストを、学習テキストを格納する記録媒体(494)に格納しうる。
ステップ418において、コンピュータ(101)は、対象分野外コーパス(493)において、ステップ412〜ステップ417の処理が未処理である文があるかを判断する。コンピュータ(101)は、上記処理が未処理である文があることに応じて、処理をステップ412に戻して、ステップ412〜ステップ418を繰り返す。一方、コンピュータ(101)は、上記処理が未処理である文がないことに応じて、処理を終了ステップ419に進める。
ステップ419において、コンピュータ(101)は、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理を終了する。
図5A及び図5Bはそれぞれ、本発明の実施態様に従い、対象分野コーパスから選択された単語列を、学習テキストを選択する為のテンプレートとする処理の為のフローチャート、及び、対象分野外コーパスから、上記生成されたテンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理の為のフローチャートを示す。
(図5A:テンプレートの生成処理)
ステップ501において、コンピュータ(101)は、対象分野コーパス(591)から選択された単語列を、学習テキストを選択する為のテンプレートとする処理を開始する。
ステップ502において、コンピュータ(101)は、対象分野コーパス(591)から一つの文(単語列からなる)を選択する。コンピュータ(101)は、対象分野コーパス(591)から取り出した当該文において、終止符(ピリオド)や句読点(句点又は読点の一方だけでもよい)を取り除いてもよい。代替的には、当該文において、句読点を取り除かなくてもよい。句読点を取り除かない場合には、句読点も、通常の単語と同じように、一つの単語として取り扱われる。なお、句読点を取り除くタイミングは、下記ステップ505での単語分割の実行後であってもよい。例えば、ステップ505での単語分割を統計的に行う場合に、当該単語分割用のモデルが句読点なしで学習されている場合には、単語分割の実行前に句読点を除外することが望ましく、一方、当該単語分割用のモデルが句読点ありで学習されている場合には、単語分割の実行後に句読点を除外することが望ましい。
ステップ503において、コンピュータ(101)は、ステップ502で選択した文又は、終止符や句読点を取り除いた文の前にBOSを示す記号(例えば、<bos>)及び、当該文の最後にEOSを示す記号(例えば、<eos>)を追加するかどうかを判断する。コンピュータ(101)は、上記記号を追加することに応じて、処理をステップ504に進める。一方、コンピュータ(101)は、上記記号を追加しないことに応じて、処理をステップ505に進める。
ステップ504において、コンピュータ(101)は、ステップ502で選択した文又は、終止符や句読点を取り除いた文の前にBOSを示す記号及び、当該文の最後にEOSを示す記号を追加する。
なお、図5Aに示すフローチャートにおいて、ステップ503及びステップ504の処理を予め省略するようにしてもよい。
ステップ505において、コンピュータ(101)は、対象分野コーパス(591)の文、又はステップ504の処理を施した文(以下、「対象分野コーパス(591)から選択された文」という;当該選択された文は単語列でもある)から、学習テキストを選択する為のテンプレートを生成する。コンピュータ(101)は、対象分野コーパス(591)から選択された文を、上記テンプレートとする。
ステップ505において、コンピュータ(101)は例えば、対象分野コーパス(591)から選択された文に対して、単語分割を行い、その結果に含まれる単語n−gramを単位として列挙しうる。なお、単語分割の代わりに、上記文に対して形態素解析を行っても良いが、形態素解析では単語分割と同時に品詞の付与を行うより高度な処理である。従って、本発明の実施態様において品詞は必要でないことから、単語分割の処理だけで十分である。ここで、当該単語n−gramにおいて、nは例えば、2〜4でありうる。特には、nは、2〜3でありうる。すなわち、コンピュータ(101)は、対象分野コーパス(591)から選択された文から、1単語ずつシフトしながらn個の単語を含む単語列を選択し、これをテンプレートとする。当該単語n−gram単位への分割において、単語列が特殊記号を含む場合には、当該特殊記号は、1単語として処理される。また、当該単語n−gram単位への分割において、単語列が終止符や句読点を含む場合には、当該終止符や当該句読点は、1単語として処理される。
ステップ506において、コンピュータ(101)は、対象分野コーパス(591)において、ステップ502〜ステップ505の処理が未処理である文があるかを判断する。コンピュータ(101)は、上記処理が未処理である文があることに応じて、処理をステップ502に戻し、ステップ502〜ステップ506を繰り返す。一方、コンピュータ(101)は、上記処理が未処理である文がないことに応じて、処理をステップ507に進める。
また、コンピュータ(101)は、ステップ502〜ステップ506を繰り返すことに応じて、ステップ505で生成したテンプレートが出現する頻度を例えばカウンタを使用して算出しうる。また、コンピュータ(101)は、ステップ505で生成したテンプレートに当該出現頻度を関連付けうる。
ステップ507において、コンピュータ(101)は、ステップ505で生成したテンプレートから、該テンプレートと同じ単語列が所定の回数よりも多く出現するテンプレートを抽出する。
上記所定の回数が1に設定されている場合には、コンピュータ(101)は、ステップ505で生成したテンプレートの全てを抽出することになる。
ステップ507において、コンピュータ(101)はさらに、上記抽出したテンプレートを、テンプレートを格納する記録媒体(592)に格納しうる。
なお、図5Aに示すフローチャートにおいて、ステップ507に示すテンプレートの抽出処理を予め省略するようにしてもよい。
ステップ508において、コンピュータ(101)は、対象分野コーパスから選択された単語列を、学習テキストを選択する為のテンプレートとする処理を終了する。
(図5B:言語モデル用の学習テキストの選択処理)
ステップ511において、コンピュータ(101)は、対象分野外コーパス(593)から、図5Aのステップ505で生成されたテンプレート又は同ステップ507で抽出されたテンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理を開始する。
ステップ512において、コンピュータ(101)は、対象分野外コーパス(593)から一つの文を選択する。コンピュータ(101)は、上記ステップ502において終止符や句読点が取り除かれていることに応じて、対象分野外コーパス(593)から取り出した文において、終止符や句読点を取り除きうる。
ステップ513において、コンピュータ(101)は、上記ステップ503と同じように、ステップ512で選択した文又は、終止符や句読点を取り除いた文の前にBOSを示す記号及び、当該文の最後にEOSを示す記号を追加するかどうかを判断する。コンピュータ(101)は、上記ステップ503で上記記号が追加されていることに応じて、処理をステップ514に進める。一方、コンピュータ(101)は、上記ステップ503で上記記号が追加されていないことに応じて、処理をステップ515に進める。
ステップ514において、コンピュータ(101)は、ステップ512で選択した文又は、終止符や句読点を取り除いた文の前にBOSを示す記号及び、当該文の最後にEOSを示す記号を追加する。
なお、図5Aに示すステップ503及びステップ504の処理が予め省略されている場合には、図5Bに示すフローチャートにおいても同様に、ステップ513及びステップ514の処理を予め省略するようにしうる。
ステップ515において、コンピュータ(101)は、図5Aのステップ505に示すテンプレートの生成技法と同じ生成技法で単語列を生成する。すなわち、コンピュータ(101)は、対象分野外コーパス(593)の文、又はステップ514の処理を施した文(以下、「対象分野外コーパス(593)から選択された文」という)の単語列を取得する。
ステップ515において、コンピュータ(101)は例えば、対象分野外コーパス(593)から選択された文に対して、単語分割を行い、その結果に含まれる単語n−gramを列挙しうる。ここで、当該単語n−gramにおいて、nはステップ505と同じ値である。コンピュータ(101)は、対象分野外コーパス(593)から選択された文から、1単語ずつシフトしながらn個の単語を含む単語列を選択する。当該単語n−gram単位への分割において、単語列が特殊記号を含む場合には、当該特殊記号は、1単語として処理される。また、当該単語n−gram単位への分割において、単語列が終止符や句読点を含む場合には、当該終止符や当該句読点は、1単語として処理される。
ステップ516において、コンピュータ(101)は、図5Aのステップ505で生成されたテンプレート又はステップ507で抽出されたテンプレートを、テンプレートを格納する記録媒体(592)から読み出し、そして、ステップ515で生成した単語列が、上記記録媒体(592)から読み出したテンプレートで被覆される被覆率を算出する。上記単語列が上記テンプレートで被覆されるとは、当該単語列が上記テンプレートの単語列と一致することをいう。但し、上記テンプレートが任意の単語を表す特殊記号(例えば、アスタリスク)を有している場合には、上記テンプレート中の当該特殊記号に対応する上記単語列の文字は任意の単語でよい。また、コンピュータ(101)は、単純に被覆率を計算するだけでなく、上記テンプレートごとに重要度を与えて、当該重要度に基づいて、重み付けされた被覆率を使用してもよい。上記重要度は例えば、上記単語列がどの程度頻繁に対象分野コーパス(591)に出現しているかに基づいて設定されうる。また、上記被覆率の算出において、コンピュータ(101)は、対象分野外コーパス(593)の文から上記テンプレートの抽出と同じ生成技法を使用して単語列を列挙し、そして当該列挙された単語列が、上記テンプレートで被覆されているかを調べる。当該被覆率計算の為の分母の数字は、対象分野外コーパス(593)の態様としている文に基づいて決まる。従って、上記被覆率を算出する上で、対象分野コーパス(591)に含まれる文と対象分野外コーパス(593)に含まれる文との文の長さが同じでない場合であっても問題無い。
ステップ517において、コンピュータ(101)は、ステップ516で算出した被覆率が所定の値以上である文を、言語モデル用の学習テキストとして選択する。コンピュータ(101)は、当該学習テキストを、学習テキストを格納する記録媒体(594)に格納しうる。
ステップ518において、コンピュータ(101)は、対象分野外コーパス(593)において、ステップ512〜ステップ517の処理が未処理である文があるかを判断する。コンピュータ(101)は、上記処理が未処理である文があることに応じて、処理をステップ512に戻して、ステップ512〜ステップ518を繰り返す。一方、コンピュータ(101)は、上記処理が未処理である文がないことに応じて、処理を終了ステップ519に進める。
ステップ519において、コンピュータ(101)は、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択する処理を終了する。
図6は、本発明の実施態様に従い、学習テキストを使用して、言語モデルを学習する処理の為のフローチャートを示す。なお、図6に示す各ステップを実行するコンピュータは、図4A及び図4Bに示す各ステップを実行するコンピュータ、又は、図5A及び図5Bに示す各ステップを実行するコンピュータと同じであっても、又は異なっていてもよい。
ステップ601において、コンピュータ(101)は、図4Bに示す処理で選択された学習テキスト、図5Bに示す処理で選択された学習テキスト、又はそれらの組み合わせ(以下、まとめて、「学習テキスト」という)を使用して、言語モデルを学習する処理を開始する。
ステップ602において、コンピュータ(101)は、上記学習テキストを、学習テキストを格納した記録媒体(694)から読み出し、当該読み出した学習テキストを使用して、言語モデルを学習する。なお、言語モデルを学習するための学習テキストは、学習コーパスとも呼ばれる。
また、ステップ602において、コンピュータ(101)はさらに、対象分野コーパス(691)から、単語n−gram基づく言語モデルを学習しうる。対象分野コーパスに対して単語分割を行い、分割済の単語列を得る方法は、当業者に知られている従来手法に従って得られる単語列である。
ステップ603において、コンピュータ(101)は、上記学習テキストを使用して、言語モデルを学習する処理を終了する。
図7は、図1に従うハードウェア構成を好ましくは備えており、図4A及び図4B又は図5A及び図5B、並びに、図6に示すフローチャートに従って本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。以下において、「部」は「手段」とも読み替えてもよい。
コンピュータ(701)は、図1に示すコンピュータ(101)に対応しうる。
コンピュータ(701)は、図4A及び図4B又は図5A及び図5Bに示すフローチャートの各ステップを実行する装置でありうる。
コンピュータ(701)は、テンプレート生成部(711)、学習テキスト選択部(712)、及び任意的に、言語モデル学習部(713)を備えている。
テンプレート生成部(711)は、(1)対象分野コーパス(791)のコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレート(792)とする生成技法:又は、(2)対象分野コーパス(791)のコーパスから選択された単語列を、学習テキストを選択する為のテンプレート(792)とする生成技法の少なくとも1つの生成技法に従って、対象分野コーパス(791)のコーパスから学習テキストを選択する為のテンプレート(792)を生成する。
また、テンプレート生成部(711)は、上記生成したテンプレート(792)のうち、所定の回数よりも多く出現するテンプレート(792)を抽出しうる。
テンプレート生成部(711)は、図4Aに示す各ステップ及び/又は図5Aに示す各ステップを実行しうる。
学習テキスト選択部(712)は、対象分野コーパス(791)と異なる対象分野外コーパス(793)からテンプレート(792)で被覆されるテキストを学習テキスト(794)として選択する。
また、学習テキスト選択部(712)は、対象分野外コーパス(793)の各文について、テンプレート生成部(711)が生成したテンプレート(792)の生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列と上記生成したテンプレート(792)とを使用して、対象分野コーパス(791)と異なる対象分野外コーパス(793)からテンプレート(792)で被覆されるテキストを学習テキスト(794)として選択しうる。
また、学習テキスト選択部(712)は、対象分野外コーパス(793)の各文について、上記生成したテンプレート(792)の生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列が上記生成したテンプレート(792)で被覆される被覆率を算出し、当該算出した被覆率が所定の値以上である文を学習テキスト(794)として選択しうる。
また、学習テキスト選択部(712)は、テンプレート生成部(711)が上記生成したテンプレート(792)のうち、所定の回数よりも多く出現するテンプレート(792)を抽出した場合に、対象分野外コーパス(793)から上記抽出したテンプレート(792)で被覆されるテキストを学習テキスト(794)として選択しうる。
また、学習テキスト選択部(712)は、対象分野外コーパス(793)の各文について、上記抽出したテンプレート(792)の生成技法と同じ生成技法に従って単語列を生成し、当該同じ生成技法に従って生成した単語列と上記抽出したテンプレート(792)とを使用して、対象分野コーパス(791)と異なる対象分野外コーパス(793)からテンプレート(792)で被覆されるテキストを学習テキスト(794)として選択しうる。
また、学習テキスト選択部(712)は、対象分野外コーパス(793)の各文について、上記抽出したテンプレート(792)の生成技法と同じ生成技法に従って単語列を生成し、上記同じ生成技法に従って生成した単語列が上記抽出したテンプレート(792)で被覆される被覆率を算出し、上記算出した被覆率が所定の値以上である文を学習テキスト(794)として選択しうる。
学習テキスト選択部(712)は、図4Bに示す各ステップ及び/又は図5Bに示す各ステップを実行しうる。
言語モデル学習部(713)は、学習テキスト(794)を使用して、言語モデルを学習する。
言語モデル学習部(713)は、図6に示す各ステップを実行しうる。
[実施例]
自動音声認識の為のタスクについての発話を人の耳で聴取して転写したテキスト(対象分野コーパス)を用意した。
コンピュータ(701)は、本発明の実施態様に従い、上記用意した対象分野コーパスから選択された単語列中の1又は複数の単語を特殊記号に置換し、当該特殊記号で置換された単語列を、学習テキストを選択する為のテンプレートとした。そして、コンピュータ(701)は、対象分野外コーパスから、上記テンプレートで被覆されるテキストを言語モデル用の学習テキストとして選択した。
また、コンピュータ(701)は、当業者に知られている従来手法に従い、上記用意した対象分野コーパスに対して単語分割を行い、分割済の単語列を取得した。
そして、コンピュータ(701)は、当該選択された学習テキスト及び上記対象分野コーパスから取得した分割済の単語列を使用して、言語モデルを学習した。コンピュータ(701)は、当該学習した言語モデルを使用して、自動音声認識実験(実施例)を行った。
[比較例]
コンピュータ(701)は、上記対象分野コーパスから取得した分割済の単語列のみを使用して、実施例と同じ言語モデルを学習した。コンピュータ(701)は、当該学習した言語モデルを使用して、自動音声認識実験(比較例)を行った。
その結果、実施例に基づく音声認識は比較例に基づく音声認識に比べて、誤り率が0.75%改善された。

Claims (20)

  1. 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
    1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
    を実行することを含む、前記方法。
  2. 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
    1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
    を実行することを含み、
    前記特殊記号がワイルドカードである、前記方法。
  3. 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
    (1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
    (2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
    の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
    を実行することを含み、
    前記テンプレートが、前記単語列中の1又は複数の単語を前記特殊記号で置換したものである、前記方法。
  4. 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
    (1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
    (2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
    の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
    を実行することを含み、
    前記テンプレートで被覆される前記テキストを選択するステップが、
    前記第2のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
    前記同じ生成技法に従って生成した単語列と前記生成したテンプレートとを使用して、前記第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップ
    を含む、前記方法。
  5. 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
    (1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
    (2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
    の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
    を実行することを含み、
    前記テンプレートで被覆される前記テキストを選択するステップが、
    前記第2のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
    前記同じ生成技法に従って生成した単語列が前記生成したテンプレートで被覆される被覆率を算出するステップと
    前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択するステップと
    を含む、前記方法。
  6. 言語モデル用の学習テキストを選択する方法であって、コンピュータが、
    (1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
    (2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
    の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するステップと、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
    を実行することを含み、
    前記テンプレートを生成するステップが、
    前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
    をさらに含み、
    前記テンプレートで被覆される前記テキストを選択するステップが、
    前記第2のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
    前記同じ生成技法に従って生成した単語列と前記抽出したテンプレートとを使用して、前記第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択するステップと
    を含む、前記方法。
  7. 前記テンプレートを生成するステップが、
    前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出するステップ
    をさらに含み、
    前記テンプレートで被覆される前記テキストを選択するステップが、
    前記第2のドメインのコーパスから前記抽出したテンプレートで被覆されるテキストを前記学習テキストとして選択するステップ
    を含む、請求項1〜5のいずれか一項に記載の方法。
  8. 前記テンプレートで被覆される前記テキストを選択するステップが、
    前記第2のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成するステップと、
    前記同じ生成技法に従って生成した単語列が前記抽出したテンプレートで被覆される被覆率を算出するステップと
    前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択するステップと
    を含む、請求項に記載の方法。
  9. 前記言語モデルが単語n−グラムに基づく言語モデルである、請求項1〜のいずれか一項に記載の方法。
  10. 前記第1のドメインのコーパスが対象分野コーパスであり、
    前記第2のドメインのコーパスが対象分野外コーパスである、
    請求項1〜9のいずれか一項に記載の方法。
  11. 言語モデルを学習する方法であって、コンピュータが、
    請求項1〜10のいずれか一項に記載の方法に従って、第1のドメインのコーパスから前記言語モデル用の学習テキストを選択する為のテンプレートを生成し、前記第2のドメインのコーパスから前記テンプレートで被覆されるテキスト又は前記テンプレートで被覆される被覆率が所定の値以上であるテキストを学習テキストとして選択するステップと、
    前記選択された学習テキストを使用して、前記言語モデルを学習するステップと
    を含む、前記方法。
  12. 言語モデル用の学習テキストを選択するためのコンピュータであって、
    1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
    を備えている、前記コンピュータ。
  13. 言語モデル用の学習テキストを選択するためのコンピュータであって、
    1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
    を備えており、
    前記特殊記号がワイルドカードである、前記コンピュータ。
  14. 言語モデル用の学習テキストを選択するためのコンピュータであって、
    (1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
    (2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
    の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
    を備えており、
    前記テンプレートが、前記単語列中の1又は複数の単語を前記特殊記号で置換したものである、前記コンピュータ。
  15. 言語モデル用の学習テキストを選択するためのコンピュータであって、
    (1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
    (2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
    の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
    を備えており、
    前記学習テキスト選択部が、
    前記第2のドメインのコーパスの各文について、前記テンプレート生成部が生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
    前記同じ生成技法に従って生成した単語列と前記生成したテンプレートとを使用して、前記第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する、
    前記コンピュータ。
  16. 言語モデル用の学習テキストを選択するためのコンピュータであって、
    (1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
    (2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
    の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
    を備えており、
    前記学習テキスト選択部が、
    前記第2のドメインのコーパスの各文について、前記生成したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
    前記同じ生成技法に従って生成した単語列が前記生成したテンプレートで被覆される被覆率を算出し、
    前記算出した被覆率が所定の値以上である文を前記学習テキストとして選択する、
    前記コンピュータ。
  17. 言語モデル用の学習テキストを選択するためのコンピュータであって、
    (1)第1のドメインのコーパスから選択された単語列中の1又は複数の単語を、任意の単語又は単語列を表す特殊記号に置換し、当該特殊記号で置換された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法:又は、
    (2)第1のドメインのコーパスから選択された単語列を、前記学習テキストを選択する為のテンプレートとする生成技法
    の少なくとも1つの生成技法に従って、前記第1のドメインのコーパスから学習テキストを選択する為のテンプレートを生成するテンプレート生成部と、
    前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する学習テキスト選択部と
    を備えており、
    前記テンプレート生成部がさらに、前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出し、
    前記学習テキスト選択部が、
    前記第2のドメインのコーパスの各文について、前記抽出したテンプレートの生成技法と同じ生成技法に従って単語列を生成し、
    前記同じ生成技法に従って生成した単語列と前記抽出したテンプレートとを使用して、前記第1のドメインと異なる第2のドメインのコーパスから前記テンプレートで被覆されるテキストを前記学習テキストとして選択する、
    前記コンピュータ。
  18. 前記テンプレート生成部がさらに、前記生成したテンプレートのうち、所定の回数よりも多く出現するテンプレートを抽出し、
    前記学習テキスト選択部が、前記第2のドメインのコーパスから前記抽出したテンプレートで被覆されるテキストを前記学習テキストとして選択する、
    請求項12〜16のいずれか一項に記載のコンピュータ。
  19. 言語モデル用の学習テキストを選択するためのコンピュータ・プログラムであって、コンピュータに、請求項1〜10のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
  20. 言語モデルを学習するためのコンピュータ・プログラムであって、コンピュータに、請求項11に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
JP2014150554A 2014-07-24 2014-07-24 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム Active JP6004452B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014150554A JP6004452B2 (ja) 2014-07-24 2014-07-24 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
US14/803,324 US9934776B2 (en) 2014-07-24 2015-07-20 Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
US14/965,088 US9892727B2 (en) 2014-07-24 2015-12-10 Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
US15/827,655 US10418029B2 (en) 2014-07-24 2017-11-30 Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014150554A JP6004452B2 (ja) 2014-07-24 2014-07-24 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2016024759A JP2016024759A (ja) 2016-02-08
JP6004452B2 true JP6004452B2 (ja) 2016-10-05

Family

ID=55167206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014150554A Active JP6004452B2 (ja) 2014-07-24 2014-07-24 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム

Country Status (2)

Country Link
US (3) US9934776B2 (ja)
JP (1) JP6004452B2 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6004452B2 (ja) 2014-07-24 2016-10-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
CN107861937B (zh) 2016-09-21 2023-02-03 松下知识产权经营株式会社 对译语料库的更新方法、更新装置以及记录介质
DE102016125162B4 (de) 2016-12-05 2018-07-26 Ernst-Moritz-Arndt-Universität Greifswald Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten
CN108415896B (zh) * 2017-02-09 2022-03-04 北京京东尚科信息技术有限公司 深度学习模型训练方法、分词方法、训练系统和分词系统
CN108288468B (zh) * 2017-06-29 2019-07-19 腾讯科技(深圳)有限公司 语音识别方法及装置
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
KR102509821B1 (ko) * 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
JP7122835B2 (ja) * 2018-02-14 2022-08-22 株式会社Nttドコモ 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル
CN109410949B (zh) * 2018-10-11 2021-11-16 厦门大学 基于加权有限状态转换器的文本内容添加标点方法
CN111353293A (zh) * 2018-12-21 2020-06-30 深圳市优必选科技有限公司 一种语句材料生成方法及终端设备
JP7103957B2 (ja) * 2019-01-09 2022-07-20 株式会社Nttドコモ データ生成装置
US10984279B2 (en) * 2019-06-13 2021-04-20 Wipro Limited System and method for machine translation of text
CN110489555B (zh) * 2019-08-21 2022-03-08 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
US11410658B1 (en) * 2019-10-29 2022-08-09 Dialpad, Inc. Maintainable and scalable pipeline for automatic speech recognition language modeling
CN111209396A (zh) * 2019-12-27 2020-05-29 深圳市优必选科技股份有限公司 实体识别模型的训练方法及实体识别方法、相关装置
US11276391B2 (en) 2020-02-06 2022-03-15 International Business Machines Corporation Generation of matched corpus for language model training
CN111444311A (zh) * 2020-02-26 2020-07-24 平安科技(深圳)有限公司 语义理解模型训练方法、装置、计算机设备和存储介质
CN111581455B (zh) * 2020-04-28 2023-03-21 北京字节跳动网络技术有限公司 文本生成模型的生成方法、装置和电子设备
CN111680986B (zh) * 2020-08-12 2020-12-08 北京擎盾信息科技有限公司 一种串案识别方法及装置
CN112559702B (zh) * 2020-11-10 2022-09-30 西安理工大学 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN112634876B (zh) * 2021-01-04 2023-11-10 北京有竹居网络技术有限公司 语音识别方法、装置、存储介质及电子设备
CN112765977B (zh) * 2021-01-11 2023-12-12 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置
CN113032529B (zh) * 2021-04-26 2021-08-13 北京世纪好未来教育科技有限公司 英文短语识别方法、装置、介质和电子设备
KR102584732B1 (ko) * 2022-08-18 2023-10-05 이승현 언어 블록에 기반한 언어 학습 서비스 제공 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256715A1 (en) * 2002-10-08 2005-11-17 Yoshiyuki Okimoto Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method
JP5807891B2 (ja) 2010-10-04 2015-11-10 国立研究開発法人情報通信研究機構 言語モデル学習装置及びコンピュータプログラム
JP5403696B2 (ja) 2010-10-12 2014-01-29 株式会社Nec情報システムズ 言語モデル生成装置、その方法及びそのプログラム
JP6004452B2 (ja) 2014-07-24 2016-10-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム

Also Published As

Publication number Publication date
US9934776B2 (en) 2018-04-03
JP2016024759A (ja) 2016-02-08
US20180114524A1 (en) 2018-04-26
US20160027433A1 (en) 2016-01-28
US9892727B2 (en) 2018-02-13
US10418029B2 (en) 2019-09-17
US20160163309A1 (en) 2016-06-09

Similar Documents

Publication Publication Date Title
JP6004452B2 (ja) 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
KR101259558B1 (ko) 문장경계 인식 장치 및 방법
Nelken et al. Arabic diacritization using weighted finite-state transducers
Gales et al. Unicode-based graphemic systems for limited resource languages
WO2014085049A1 (en) Speech transcription including written text
WO2010059191A1 (en) Stochastic phoneme and accent generation using accent class
US20110295606A1 (en) Contextual conversion platform
WO2021154544A1 (en) Language-agnostic multilingual modeling using effective script normalization
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
Sarma et al. Development and analysis of speech recognition systems for Assamese language using HTK
Hahn et al. A Comparison of Various Methods for Concept Tagging for Spoken Language Understanding.
Prasad et al. Mining Training Data for Language Modeling Across the World's Languages.
JP5979650B2 (ja) 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
Kheang et al. Solving the phoneme conflict in grapheme-to-phoneme conversion using a two-stage neural network-based approach
JP5722375B2 (ja) 文末表現変換装置、方法、及びプログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
CN111328416A (zh) 用于自然语言处理中的模糊匹配的语音模式
CN116686045A (zh) 在没有完整转录本的情况下的端到端口语理解
JP5888723B2 (ja) 発音辞書作成装置、発音辞書の生産方法、およびプログラム
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP5522393B2 (ja) 音響モデル構築装置、音声認識装置、音響モデル構築方法、およびプログラム
JP2021085996A (ja) 音声認識システム、音声認識方法
CN117591800A (zh) 文本增强方法、装置、电子设备及计算机可读存储介质
US20200117754A1 (en) System and method for searching audio data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160316

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160316

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160711

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160810

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20160810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160831

R150 Certificate of patent or registration of utility model

Ref document number: 6004452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150