JP4245530B2 - 言語モデル作成装置及び方法並びにプログラム - Google Patents
言語モデル作成装置及び方法並びにプログラム Download PDFInfo
- Publication number
- JP4245530B2 JP4245530B2 JP2004239764A JP2004239764A JP4245530B2 JP 4245530 B2 JP4245530 B2 JP 4245530B2 JP 2004239764 A JP2004239764 A JP 2004239764A JP 2004239764 A JP2004239764 A JP 2004239764A JP 4245530 B2 JP4245530 B2 JP 4245530B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- class
- language model
- sentence
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
図1は、この発明の実施の形態1による言語モデル作成装置の構成を示すブロック図である。本実施の形態1による言語モデル作成装置は、文例入力部1、形態素解析部2、既知語クラス付与部3、既知語クラス辞書(既知語クラス記憶部)4、未知語クラス推定部5、クラス推定用文例辞書(クラス推定用文例記憶部)6、未知語推定クラス辞書7、言語モデル作成用データメモリ(言語モデル作成用データ記憶部)8及び言語モデル作成部9を含んで構成される。
参考文献1;森信介、長尾眞、”nグラム統計によるコーパスからの未知語抽出”、電子情報通信学会技術研究報告、NLC95−8、(1995年7月)。
先ず、ユーザが本実施の形態1による言語モデル作成装置に登録文を入力する。具体的には、ユーザが、文例入力部1(例えば、キーボードなど)を用いて登録文を入力することで、当該登録文が電子データとして形態素解析部2に入力される。
(1)初期化
g[i][0]=i,i=1〜I ・・・(1)
g[0][j]=j,j=1〜J ・・・(2)
(2)漸化式
g[i][j]=MIN(g[i−1][j]+1,g[i][j−1],
g[i−1][j−1]+d[i][j]),i
=1〜I,j=1〜J ・・・(3)
S(r)=n1−a*nd−b*ni ・・・(4)
ここで、a,bは予め値を定めた正の定数であり、n1はマッチした全文字数、ndは脱落文字数及びniは挿入文字数である。
p(wi|wi−1)=N(wi−1,wi)
/ΣkN(wi−1,wk)・・・(5)
ここで、N(wi−1,wi)は、言語モデル作成用データメモリ8中に含まれるデータの単語連鎖{wi−1,wi}の出現数である。
p(wi|wi−1)=p(wi|Cx)*p(Cx|wi−1)・・・(6)
ここで、p(wi|Cx)=N(wi)/N(Cx) ・・・(7)
p(Cx|wi−1)=N(wi−1,Cx)
/ΣkN(wi−1,wk) ・・・(8)
N(wi)は、言語モデル作成用データメモリ8に格納されている学習データ中に単語wiが出現する個数を示している。また、N(Cx)は言語モデル作成用データメモリに格納される学習データ中にクラス語Cxが出現する個数であり、N(wi−1,Cx)は言語モデル作成用データメモリに格納される学習データに含まれる単語とクラス語の連鎖{wi−1,Cx}の出現数である。
p(wi|Cx)=1/Z(Cx) ・・・(9)
ここで、Z(Cx)はクラスCxに属する単語の種類数である。
既知語クラス辞書4及び未知語推定クラス辞書7に格納されているデータを参照して、上記式(9)の値を算出する。即ち、Cxを<月>とすると、クラス<月>に属する単語の種類数Z(Cx)を既知語クラス辞書4及び未知語推定クラス辞書7に格納されているデータを数え上げることによって求める。
p(wi|Cx)=1/12 ・・・(10)
図12は、この発明の実施の形態2による言語モデル作成装置の構成を示すブロック図であり、図1と同一若しくは相当する構成要素には同一符号を付している。本実施の形態2による言語モデル作成装置は、上記実施の形態1の構成に加え、クラス推定保留データメモリ(クラス推定保留データ記憶部)10を含んで構成される。クラス推定保留データメモリ10は、クラスを推定できなかった未知語を格納する。
先ず、上記実施の形態1と同様にして、ユーザが、文例入力部1(例えば、キーボードなど)を用いて、登録文を電子データとして形態素解析部2に入力する。形態素解析部2では、文例入力部1を介して入力された入力文を形態素解析し、単語単位に分割する。この形態素解析は、上記実施の形態1と同様に、例えば参考文献1に示す手法を用いる。
図13は、実施の形態2の未知語クラス推定部の動作を示すフローチャートであり、この図に沿って動作の詳細を説明する。
図14は、この発明の実施の形態3による言語モデル作成装置の構成を示すブロック図であり、図1と同一若しくは相当する構成要素には同一符号を付している。本実施の形態3による言語モデル作成装置は、上記実施の形態1の構成に加え、推定結果確認部11を含んで構成される。
先ず、上記実施の形態1と同様にして、ユーザが、文例入力部1(例えば、キーボードなど)を用いて、登録文を電子データとして形態素解析部2に入力する。形態素解析部2では、文例入力部1を介して入力された入力文を形態素解析し、単語単位に分割する。この形態素解析は、上記実施の形態1と同様に、例えば参考文献1に示す手法を用いる。
Claims (10)
- 入力文を形態素解析して単語毎に分割する形態素解析部と、
言語モデル作成用の文例を格納する言語モデル作成用データ記憶部と、
単語クラスに分類する単語とその単語クラスを格納する既知語クラス記憶部と、
上記形態素解析部により分割された上記入力文の単語のうち、上記既知語クラス記憶部に格納される単語に一致するものにその単語クラスを付与する既知語クラス付与部と、
上記言語モデル作成用の文例のうち、単語をこれに付与した単語クラスを示すクラス語で置き換えた文例をマッチング対象文例として格納するクラス推定用文例記憶部と、
上記既知語クラス付与部により単語クラスが付与された単語を含む上記入力文と上記マッチング対象文例とのパターンマッチング処理により、上記入力文中の未知語と上記マッチング対象文例中のクラス語とがマッチするか否かを判定し、マッチすると判定したクラス語の単語クラスをこの未知語の単語クラスとして推定すると共に、上記マッチすると判定したクラス語で上記未知語を置き換えた上記入力文を上記言語モデル作成用の文例として上記言語モデル作成用データ記憶部に登録する未知語クラス推定部と、
上記言語モデル作成用の文例に含まれる単語列の出現確率を算出して言語モデルとして出力する言語モデル作成部とを備えた言語モデル作成装置。 - 未知語クラス推定部は、パターンマッチング処理として入力文とマッチング対象文例との各文字列上でのDPマッチング処理を実行することを特徴とする請求項1記載の言語モデル作成装置。
- 未知語クラス推定部は、DPマッチング処理の終了後に入力文における文字又は単語の挿入文字数と脱落文字数をカウントし、上記挿入文字数又は上記脱落文字数が許容値を超える場合、パターンマッチングのマッチングスコアを0とすることを特徴とする請求項2記載の言語モデル作成装置。
- 未知語クラス推定部は、入力文の文字列で最初に出現する未知語より前方の文字を挿入文字数としてカウントしないことを特徴とする請求項3記載の言語モデル作成装置。
- 未知語クラス推定部は、入力文の文字列で最後に出現する未知語より後方に接続詞又は接続助詞が存在する場合、この接続詞又は接続助詞を含めて後方に存在する文字を挿入文字数及び脱落文字数としてカウントしないことを特徴とする請求項4記載の言語モデル作成装置。
- 未知語クラス推定部は、クラス推定用文例記憶部の複数のマッチング対象文例中の各クラス語に未知語がマッチするか否かを判定して当該未知語に対する1個以上の単語クラス候補を抽出し、当該単語クラス候補から上記未知語に付与すべき単語クラスを推定することを特徴とする請求項1記載の言語モデル作成装置。
- クラス推定用文例記憶部に格納される文例中のクラス語にマッチしない未知語を含む入力文をクラス推定保留文例として格納するクラス推定保留データ記憶部を備え、
未知語クラス推定部は、既知語クラス付与部により単語クラスが付与された単語を含む入力文と上記クラス推定保留文例とのパターンマッチング処理により、上記既知語クラス付与部により単語クラスが付与された単語と上記クラス推定保留文例中の未知語とがマッチするか否かを判定し、マッチすると判定した単語の単語クラスをこの未知語の単語クラスとして推定することを特徴とする請求項1記載の言語モデル作成装置。 - 未知語クラス推定部が推定した単語クラスを提示して、未知語に対する上記単語クラスの付与の可否に関する情報を受け付ける推定結果確認部を備え、
上記未知語クラス推定部は、上記推定結果確認部が受け付けた情報に基づいて上記未知語の単語クラスを推定することを特徴とする請求項1記載の言語モデル作成装置。 - 形態素解析部、既知語クラス付与部、未知語クラス推定部、単語クラスに分類する単語とその単語クラスを格納する既知語クラス記憶部、言語モデル作成用の文例を格納する言語モデル作成用データ記憶部及び言語モデル作成部を備えた言語モデル作成装置の言語モデル作成方法において、
上記形態素解析部が、入力文を形態素解析して単語毎に分割する形態素解析ステップと、
上記既知語クラス付与部が、上記形態素解析ステップで分割された上記入力文の単語のうち、上記既知語クラス記憶部から読み出した単語に一致するものにその単語クラスを付与する既知語クラス付与ステップと、
上記未知語クラス推定部が、言語モデル作成用の文例のうち、単語をこれに付与した単語クラスを示すクラス語で置き換えた文例をマッチング対象文例と上記既知語クラス付与ステップで単語クラスが付与された単語を含む上記入力文とのパターンマッチング処理により、上記マッチング対象文例中のクラス語と上記入力文中の未知語とがマッチするか否かを判定し、マッチすると判定したクラス語の単語クラスをこの未知語の単語クラスとして推定するクラス推定ステップと、
上記未知語クラス推定部が、上記クラス推定ステップでマッチすると判定されたクラス語で上記未知語を置き換えた入力文を上記言語モデル作成用の文例として上記言語モデル作成用データ記憶部に登録する登録ステップと、
上記言語モデル作成部が、上記言語モデル作成用データ記憶部から読み出した言語モデル作成用の文例に含まれる単語列の出現確率を算出して言語モデルとして出力する言語モデル作成ステップとを備えた言語モデル作成方法。 - 入力文を形態素解析して単語毎に分割する形態素解析部、
上記形態素解析部により分割された上記入力文の単語のうち、単語クラスに分類する単語とその単語クラスを格納する既知語クラス記憶部から読み出した単語に一致するものにその単語クラスを付与する既知語クラス付与部、
言語モデル作成用の文例のうち、単語をこれに付与した単語クラスを示すクラス語で置き換えたマッチング対象文例と上記既知語クラス付与部により単語クラスが付与された単語を含む上記入力文とのパターンマッチング処理により、上記マッチング対象文例中のクラス語と上記入力文中の未知語とがマッチするか否かを判定し、マッチすると判定したクラス語の単語クラスをこの未知語の単語クラスとして推定すると共に、上記マッチすると判定したクラス語で上記未知語を置き換えた入力文を上記言語モデル作成用の文例として言語モデル作成用データ記憶部に登録する未知語クラス推定部、
上記言語モデル作成用データ記憶部から読み出した言語モデル作成用の文例に含まれる単語列の出現確率を算出して言語モデルとして出力する言語モデル作成部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004239764A JP4245530B2 (ja) | 2004-08-19 | 2004-08-19 | 言語モデル作成装置及び方法並びにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004239764A JP4245530B2 (ja) | 2004-08-19 | 2004-08-19 | 言語モデル作成装置及び方法並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006059105A JP2006059105A (ja) | 2006-03-02 |
JP4245530B2 true JP4245530B2 (ja) | 2009-03-25 |
Family
ID=36106529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004239764A Expired - Fee Related JP4245530B2 (ja) | 2004-08-19 | 2004-08-19 | 言語モデル作成装置及び方法並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4245530B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105446956A (zh) * | 2015-12-02 | 2016-03-30 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
CN108509409A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种自动生成语义相近句子样本的方法 |
US10410624B2 (en) | 2016-03-17 | 2019-09-10 | Kabushiki Kaisha Toshiba | Training apparatus, training method, and computer program product |
US10964313B2 (en) | 2016-03-17 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word score calculation device, word score calculation method, and computer program product |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5137588B2 (ja) * | 2008-01-09 | 2013-02-06 | 三菱電機株式会社 | 言語モデル生成装置及び音声認識装置 |
JP4897737B2 (ja) * | 2008-05-12 | 2012-03-14 | 日本電信電話株式会社 | 単語追加装置、単語追加方法、そのプログラム |
DE112010005226T5 (de) * | 2010-02-05 | 2012-11-08 | Mitsubishi Electric Corporation | Erkennungswörterbuch-Erzeugungsvorrichtung und Spracherkennungsvorrichtung |
JP5480844B2 (ja) * | 2011-05-16 | 2014-04-23 | 日本電信電話株式会社 | 単語追加装置、単語追加方法及びそのプログラム |
JP6849082B2 (ja) * | 2017-09-11 | 2021-03-24 | 株式会社島津製作所 | 試料カテゴリーの特定装置、分析システム、及び分析ネットワークシステム |
WO2021250784A1 (ja) * | 2020-06-09 | 2021-12-16 | 日本電気株式会社 | 辞書生成システム、学習データ生成システム、音声認識システム、辞書生成方法およびコンピュータ可読媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4048473B2 (ja) * | 2002-03-15 | 2008-02-20 | ソニー株式会社 | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
-
2004
- 2004-08-19 JP JP2004239764A patent/JP4245530B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105446956A (zh) * | 2015-12-02 | 2016-03-30 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
CN105446956B (zh) * | 2015-12-02 | 2018-08-28 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
US10410624B2 (en) | 2016-03-17 | 2019-09-10 | Kabushiki Kaisha Toshiba | Training apparatus, training method, and computer program product |
US10964313B2 (en) | 2016-03-17 | 2021-03-30 | Kabushiki Kaisha Toshiba | Word score calculation device, word score calculation method, and computer program product |
CN108509409A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种自动生成语义相近句子样本的方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2006059105A (ja) | 2006-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN110164435B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN110738997B (zh) | 一种信息修正方法、装置、电子设备及存储介质 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
US6507816B2 (en) | Method and apparatus for evaluating the accuracy of a speech recognition system | |
US20170103061A1 (en) | Interaction apparatus and method | |
US20030144841A1 (en) | Speech processing apparatus and method | |
US6763331B2 (en) | Sentence recognition apparatus, sentence recognition method, program, and medium | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
JP4245530B2 (ja) | 言語モデル作成装置及び方法並びにプログラム | |
CN109299471B (zh) | 一种文本匹配的方法、装置及终端 | |
KR20080021692A (ko) | 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치 | |
CN109977398A (zh) | 一种特定领域的语音识别文本纠错方法 | |
US20110106814A1 (en) | Search device, search index creating device, and search system | |
CN108710653A (zh) | 一种绘本朗读点播方法、装置及系统 | |
Sperber et al. | Optimizing computer-assisted transcription quality with iterative user interfaces | |
US7103533B2 (en) | Method for preserving contextual accuracy in an extendible speech recognition language model | |
CN102937834B (zh) | 混合型输入的方法、客户端及系统 | |
JP4089861B2 (ja) | 音声認識文章入力装置 | |
JP2022511139A (ja) | 情報処理方法、装置および記憶媒体 | |
Granell et al. | An interactive approach with off-line and on-line handwritten text recognition combination for transcribing historical documents | |
JP4220151B2 (ja) | 音声対話装置 | |
Liang et al. | An efficient error correction interface for speech recognition on mobile touchscreen devices | |
KR102118322B1 (ko) | 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법 | |
JP4083400B2 (ja) | アクセント句境界決定装置、音声合成装置及び方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070523 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080402 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080718 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081028 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090106 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130116 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |