JP6353408B2 - 言語モデル適応装置、言語モデル適応方法、プログラム - Google Patents
言語モデル適応装置、言語モデル適応方法、プログラム Download PDFInfo
- Publication number
- JP6353408B2 JP6353408B2 JP2015118370A JP2015118370A JP6353408B2 JP 6353408 B2 JP6353408 B2 JP 6353408B2 JP 2015118370 A JP2015118370 A JP 2015118370A JP 2015118370 A JP2015118370 A JP 2015118370A JP 6353408 B2 JP6353408 B2 JP 6353408B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- language model
- probability
- word
- general
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
以下、テキストデータ記憶部101の説明で使用する用語の定義を行う。
<文書>
「文書」は、1つの文またはひとつながりの2以上の文からなるものとする。一つの「文書」につき、1つまたは2つ以上の「話題」が存在するものとする。
<話題>
「話題」は、主題、題目のことであって、文によって陳述される中心的対象を指し、通常の意味で用いられる。
<テキストデータ>
「テキストデータ」は「文書」を少なくとも2以上含む、「文書」の集合であるものとする。
一般言語モデル構築部102は、複数の話題を含むテキストデータを用いて、通常のN−gram言語モデルの構築処理を行い、N−gram言語モデルである一般言語モデルを構築する(S102)。一般言語モデルは、特定の用途向けに作成されたモデルではなく幅広い話題に対応できるモデルであって、その語彙サイズは数万〜数十万語程度とすれば好適である。一般言語モデル構築部102は、構築した一般言語モデルを一般言語モデル記憶部103に記憶する。
以下、話題指定情報記憶部104の説明で使用する用語の定義を行う。
<話題指定情報>
「話題指定情報」は、特定の話題についての文書を指定する情報である。話題指定情報として、例えば、その話題によく使われる単語そのもの、またはその話題によく使われる単語をリスト化した情報や、あるいはその話題について書かれた文書を指定する情報であって、ユーザが予め付与した情報などが考えられる。文書を指定する情報としては、例えば文書のID(識別番号)などであってもよい。例えば、話題指定情報として「音声認識」という単語が指定されたとする。この場合の話題指定情報が指定する文書とは、「音声認識」が出現する文書を意味する。
図3に示すように、話題統計推定部105は、話題別単語出現確率計算部1051と、話題補正情報生成部1052を含む。
《話題別単語出現確率計算部1051》
話題別単語出現確率計算部1051は、話題指定情報に基づいてテキストデータ内の文書を指定し、指定された文書の中に出現する各単語のUnigram確率(話題別単語出現確率という)を計算する(S1051)。
《話題補正情報生成部1052》
話題補正情報生成部1052は、話題別単語出現確率と、一般言語モデルに格納される各単語のUnigram確率(一般単語出現確率という)に基づいて、一般単語出現確率を話題別単語出現確率に補正する値(話題補正情報という)を各単語について生成する(S1052)。話題補正情報生成部1052は、生成した話題補正情報を話題補正情報記憶部106に記憶する。
単語「制度」の補正値=(1.0×10-3)/(1.0×10-3)=1.0
単語「精度」の補正値=(1.0×10-1)/(1.0×10-4)=1.0×103
を生成する(S1052)。
言語モデル補正部107は、Nを2以上の整数とし、一般言語モデルの各N−gram確率において、N番目の単語に対応する話題補正情報を取得して、取得した話題補正情報を元のN−gram確率に乗算して新たなN−gram確率とし、計算した確率の集合を話題適応言語モデルとして出力し、当該話題適応言語モデルを話題適応言語モデル記憶部108に記憶する(S107)。ステップS107で生成される話題適応言語モデルは、一般言語モデルの各遷移確率を、指定された話題に応じた遷移確率に変換することができる。上述の例では、「精度」に関するN−gramは、一般言語モデルの遷移確率よりも1.0×103倍大きな確率となり、「音声認識」という話題に適した言語モデルに補正される。
本発明では、人間が指定する単純なキーワード等の情報より目的の話題の言語モデルを構築した。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (3)
- 複数の話題を含むテキストデータを用いてN−gram言語モデルである一般言語モデルを構築する一般言語モデル構築部と、
特定の話題についての文書を指定する情報である話題指定情報に基づいて前記テキストデータ内の文書を指定し、指定された文書の中に出現する各単語のUnigram確率である話題別単語出現確率を計算する話題別単語出現確率計算部と、
前記話題別単語出現確率と、前記一般言語モデルに格納される各単語のUnigram確率である一般単語出現確率に基づいて、前記一般単語出現確率を前記話題別単語出現確率に補正する値である話題補正情報を各単語について生成する話題補正情報生成部と、
Nを2以上の整数とし、前記一般言語モデルの各N−gram確率において、N番目の単語に対応する話題補正情報を取得して、取得した話題補正情報を元のN−gram確率に乗算して新たなN−gram確率とし、計算した確率の集合を話題適応言語モデルとして出力する言語モデル補正部と、
を含む言語モデル適応装置。 - 言語モデル適応装置が実行する言語モデル適応方法であって、
複数の話題を含むテキストデータを用いてN−gram言語モデルである一般言語モデルを構築するステップと、
特定の話題についての文書を指定する情報である話題指定情報に基づいて前記テキストデータ内の文書を指定し、指定された文書の中に出現する各単語のUnigram確率である話題別単語出現確率を計算するステップと、
前記話題別単語出現確率と、前記一般言語モデルに格納される各単語のUnigram確率である一般単語出現確率に基づいて、前記一般単語出現確率を前記話題別単語出現確率に補正する値である話題補正情報を各単語について生成するステップと、
Nを2以上の整数とし、前記一般言語モデルの各N−gram確率において、N番目の単語に対応する話題補正情報を取得して、取得した話題補正情報を元のN−gram確率に乗算して新たなN−gram確率とし、計算した確率の集合を話題適応言語モデルとして出力するステップを、
を含む言語モデル適応方法。 - コンピュータを請求項1に記載の言語モデル適応装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015118370A JP6353408B2 (ja) | 2015-06-11 | 2015-06-11 | 言語モデル適応装置、言語モデル適応方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015118370A JP6353408B2 (ja) | 2015-06-11 | 2015-06-11 | 言語モデル適応装置、言語モデル適応方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017003812A JP2017003812A (ja) | 2017-01-05 |
JP6353408B2 true JP6353408B2 (ja) | 2018-07-04 |
Family
ID=57754121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015118370A Active JP6353408B2 (ja) | 2015-06-11 | 2015-06-11 | 言語モデル適応装置、言語モデル適応方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6353408B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI718042B (zh) | 2019-05-27 | 2021-02-01 | 日商Ckd股份有限公司 | 檢查裝置、包裝薄片製造裝置及包裝薄片製造方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110349568B (zh) * | 2019-06-06 | 2024-05-31 | 平安科技(深圳)有限公司 | 语音检索方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5914054B2 (ja) * | 2012-03-05 | 2016-05-11 | 日本放送協会 | 言語モデル作成装置、音声認識装置、およびそのプログラム |
-
2015
- 2015-06-11 JP JP2015118370A patent/JP6353408B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI718042B (zh) | 2019-05-27 | 2021-02-01 | 日商Ckd股份有限公司 | 檢查裝置、包裝薄片製造裝置及包裝薄片製造方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2017003812A (ja) | 2017-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210256390A1 (en) | Computationally efficient neural network architecture search | |
US9818409B2 (en) | Context-dependent modeling of phonemes | |
JP7129137B2 (ja) | 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム | |
CN104573099B (zh) | 题目的搜索方法及装置 | |
JP6812381B2 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
CN107480196B (zh) | 一种基于动态融合机制的多模态词汇表示方法 | |
US11748393B2 (en) | Creating compact example sets for intent classification | |
TWI757357B (zh) | 加權有限狀態變換器解碼系統及語音辨識系統 | |
US20130138441A1 (en) | Method and system for generating search network for voice recognition | |
JPWO2019163718A1 (ja) | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム | |
CN116686045A (zh) | 在没有完整转录本的情况下的端到端口语理解 | |
US11270085B2 (en) | Generating method, generating device, and recording medium | |
JP6353408B2 (ja) | 言語モデル適応装置、言語モデル適応方法、プログラム | |
US9318106B2 (en) | Joint sound model generation techniques | |
US11797769B1 (en) | Artificial intelligence system using hybrid technique for task-oriented dialog management | |
JP6259377B2 (ja) | 対話システム評価方法、対話システム評価装置及びプログラム | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
US12026632B2 (en) | Response phrase selection device and method | |
JP6852167B2 (ja) | コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム | |
JP5881157B2 (ja) | 情報処理装置、およびプログラム | |
JP2007249050A (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP6441177B2 (ja) | ポーズ長決定装置、ポーズ長決定方法、およびプログラム | |
JP5980143B2 (ja) | ポーズ付与モデル生成装置、ポーズ付与モデル生成方法、ポーズ付与装置、ポーズ付与方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180605 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6353408 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |