JP6220761B2 - モデル学習装置、文字列変換装置、方法、及びプログラム - Google Patents
モデル学習装置、文字列変換装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6220761B2 JP6220761B2 JP2014213752A JP2014213752A JP6220761B2 JP 6220761 B2 JP6220761 B2 JP 6220761B2 JP 2014213752 A JP2014213752 A JP 2014213752A JP 2014213752 A JP2014213752 A JP 2014213752A JP 6220761 B2 JP6220761 B2 JP 6220761B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character string
- regular
- phrase
- collapsed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
20、320 演算部
30 初期設定部
32 フレーズアライメント部
34 正規崩れフレーズモデル推定部
36 正規崩れフレーズモデル記憶部
38 崩れ表記辞書生成部
40 スキップリスト生成部
42、340 スキップリスト記憶部
44、342 崩れ表記辞書DB
46、344 正規語辞書DB
48、346 文字種変換辞書DB
50、330 文字列生成部
52、332 ラティス生成部
54 モデル学習部
60、360 出力部
100 モデル学習装置
300 文字列変換装置
334 文字列変換部
350 最尤モデル記憶部
Claims (8)
- 入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、
前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成する正規崩れフレーズモデル推定部と、
前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成する崩れ表記辞書生成部と、
入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するモデル学習部と、
を含む、モデル学習装置。 - 前記モデル学習部は、入力文字列中の観測語wiが正規語viから生成される確率P(wi|vi)、正規語viが品詞ciから生成される確率P(vi|ci)、及び品詞ciが隣り合う一つ前の品詞ci−1から生成される確率P(ci|ci−1)の積算値を最尤化するように、前記確率P(wi|vi)、前記確率P(vi|ci)、及び前記確率P(ci|ci−1)を、前記最尤モデルとして学習する請求項1記載のモデル学習装置。
- 前記ラティス生成部は、前記入力された文書に含まれる入力文字列の各々に対して、対応する正規フレーズが空の文字列である複数の崩れフレーズからなるスキップリストを用いて、前記入力文字列から、前記スキップリストに含まれる前記崩れフレーズを削除した文字列を生成し、前記入力文字列、及び前記生成された文字列について、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列、及び前記生成された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造である前記ラティスを生成する請求項1又は2記載のモデル学習装置。
- 入力された文字列に対して、請求項1〜請求項3の何れか1項記載のモデル学習装置により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって生成されたラティスと、前記モデル学習装置によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、
を含む、文字列変換装置。 - フレーズアライメント部、正規崩れフレーズモデル推定部、崩れ表記辞書生成部、ラティス生成部、モデル学習部を含むモデル学習装置におけるモデル学習方法であって、
前記フレーズアライメント部が、入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるステップと、
前記正規崩れフレーズモデル推定部が、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成するステップと、
前記崩れ表記辞書生成部が、前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成するステップと、
前記ラティス生成部が、入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
前記モデル学習部が、前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するステップと、
を含む、モデル学習方法。 - ラティス生成部、文字列変換部を含む文字列変換装置における文字列変換方法であって、
前記ラティス生成部が、入力された文字列に対して、請求項5記載のモデル学習方法により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
前記文字列変換部が、前記ラティス生成部によって生成されたラティスと、前記モデル学習方法によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、
を含む、文字列変換方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載のモデル学習装置を構成する各部として機能させるためのプログラム。
- コンピュータを、請求項4に記載の文字列変換装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014213752A JP6220761B2 (ja) | 2014-10-20 | 2014-10-20 | モデル学習装置、文字列変換装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014213752A JP6220761B2 (ja) | 2014-10-20 | 2014-10-20 | モデル学習装置、文字列変換装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016081379A JP2016081379A (ja) | 2016-05-16 |
JP6220761B2 true JP6220761B2 (ja) | 2017-10-25 |
Family
ID=55956223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014213752A Active JP6220761B2 (ja) | 2014-10-20 | 2014-10-20 | モデル学習装置、文字列変換装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6220761B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6684693B2 (ja) * | 2016-11-09 | 2020-04-22 | 日本電信電話株式会社 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4478042B2 (ja) * | 2005-03-01 | 2010-06-09 | 日本電信電話株式会社 | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 |
JP3986531B2 (ja) * | 2005-09-21 | 2007-10-03 | 沖電気工業株式会社 | 形態素解析装置及び形態素解析プログラム |
-
2014
- 2014-10-20 JP JP2014213752A patent/JP6220761B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016081379A (ja) | 2016-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
JP5377889B2 (ja) | 言語処理装置およびプログラム | |
US10319368B2 (en) | Meaning generation method, meaning generation apparatus, and storage medium | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
CN110085215B (zh) | 一种基于生成对抗网络的语言模型数据增强方法 | |
CN112906392B (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
CN104156349B (zh) | 基于统计词典模型的未登录词发现和分词系统及方法 | |
JP2009223463A (ja) | 同義性判定装置、その方法、プログラム及び記録媒体 | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
JP5319141B2 (ja) | 言語モデルの枝刈り方法及び装置 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
Fusayasu et al. | Word-error correction of continuous speech recognition based on normalized relevance distance | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
KR20080039009A (ko) | 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치 | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
JP2017010249A (ja) | パラメタ学習装置、文類似度算出装置、方法、及びプログラム | |
JP6220761B2 (ja) | モデル学習装置、文字列変換装置、方法、及びプログラム | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
JP6712973B2 (ja) | 文生成装置、文生成学習装置、文生成方法、及びプログラム | |
KR101417757B1 (ko) | 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법 | |
JP6558856B2 (ja) | 形態素解析装置、モデル学習装置、及びプログラム | |
JP2017167378A (ja) | 単語スコア計算装置、単語スコア計算方法及びプログラム | |
JP5959598B2 (ja) | モデル学習装置、ランキング装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6220761 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |