JP2018077677A - 文字列変換装置、モデル学習装置、方法、及びプログラム - Google Patents
文字列変換装置、モデル学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2018077677A JP2018077677A JP2016218997A JP2016218997A JP2018077677A JP 2018077677 A JP2018077677 A JP 2018077677A JP 2016218997 A JP2016218997 A JP 2016218997A JP 2016218997 A JP2016218997 A JP 2016218997A JP 2018077677 A JP2018077677 A JP 2018077677A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word
- character
- partial
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 100
- 230000014509 gene expression Effects 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Abstract
Description
・・・(1)
・・・(2)
・・・(3)
20 演算部
30 文字列アライメント部
32 判定モデル学習部
34 変換モデル学習部
40,240 判定モデル
42,242 変換モデル
100 モデル学習装置
200 文字列変換装置
210 入力部
220 演算部
230 部分文字列特定部
232 文字列変換部
250 出力部
Claims (8)
- 入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定する部分文字列特定部と、
前記部分文字列特定部によって特定された部分文字列に対して、前記崩れ語を前記正規語に変換するための変換モデルに基づいて、前記部分文字列を変換することにより、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、
を含む文字列変換装置。 - 前記変換モデルは、前記崩れ語より前の文脈及び前記崩れ語より後の文脈を考慮して、前記崩れ語を前記正規語に変換するための変換モデルであり、
前記文字列変換部は、前記部分文字列特定部によって特定された部分文字列に対して、前記変換モデルと、前記文字列における前記部分文字列より前の文脈及び前記部分文字列より後の文脈とに基づいて、前記部分文字列を変換する請求項1記載の文字列変換装置。 - 前記判定モデルは、判定対象の文字、前記判定対象の文字より前の文字列、及び前記判定対象の文字より後の文字列を入力とし、前記判定対象の文字が崩れ語の文字である確率を出力するニューラルネットワークであり、
前記変換モデルは、変換対象の部分文字列、前記変換対象の部分文字列より前の文字列、及び前記変換対象の部分文字列より後の文字列を入力とし、変換対象の部分文字列を変換した変換後の部分文字列の文字の各々について、各文字である確率を出力するニューラルネットワークである請求項1又は2記載の文字列変換装置。 - 入力された、正規化された表現である正規語からなる正規化文と、前記正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、前記複数のペアの各々について、前記正規化文に含まれる各文字と、前記崩れ文に含まれる各文字との対応関係を求める文字列アライメント部と、
前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習する判定モデル学習部と、
前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語を前記正規語に変換するための変換モデルを学習する変換モデル学習部と、
を含むモデル学習装置。 - 部分文字列特定部が、入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定するステップと、
文字列変換部が、前記部分文字列特定部によって特定された部分文字列に対して、前記崩れ語を前記正規語に変換するための変換モデルに基づいて、前記部分文字列を変換することにより、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、
を含む文字列変換方法。 - 文字列アライメント部が、入力された、正規化された表現である正規語からなる正規化文と、前記正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、前記複数のペアの各々について、前記正規化文に含まれる各文字と、前記崩れ文に含まれる各文字との対応関係を求めるステップと、
判定モデル学習部が、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習するステップと、
変換モデル学習部が、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語を前記正規語に変換するための変換モデルを学習するステップと、
を含むモデル学習方法。 - コンピュータを、請求項1〜請求項3のいずれか1項に記載の文字列変換装置の各部として機能させるためのプログラム。
- コンピュータを、請求項4に記載のモデル学習装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016218997A JP6684693B2 (ja) | 2016-11-09 | 2016-11-09 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016218997A JP6684693B2 (ja) | 2016-11-09 | 2016-11-09 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018077677A true JP2018077677A (ja) | 2018-05-17 |
JP6684693B2 JP6684693B2 (ja) | 2020-04-22 |
Family
ID=62150499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016218997A Active JP6684693B2 (ja) | 2016-11-09 | 2016-11-09 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6684693B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
JP2020134557A (ja) * | 2019-02-13 | 2020-08-31 | 株式会社ワコム | 文字データ生成装置、方法及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015169947A (ja) * | 2014-03-04 | 2015-09-28 | 日本電信電話株式会社 | モデル学習装置、形態素解析装置、及び方法 |
JP2016081379A (ja) * | 2014-10-20 | 2016-05-16 | 日本電信電話株式会社 | モデル学習装置、文字列変換装置、方法、及びプログラム |
-
2016
- 2016-11-09 JP JP2016218997A patent/JP6684693B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015169947A (ja) * | 2014-03-04 | 2015-09-28 | 日本電信電話株式会社 | モデル学習装置、形態素解析装置、及び方法 |
JP2016081379A (ja) * | 2014-10-20 | 2016-05-16 | 日本電信電話株式会社 | モデル学習装置、文字列変換装置、方法、及びプログラム |
Non-Patent Citations (2)
Title |
---|
佐々木 彬 外3名: "機械学習に基づくマイクロブログ上のテキストの正規化", 第27回全国大会論文集 [CD−ROM] 2013年度 人工知能学会全国大会(第27回)論文集, JPN6019028894, 4 June 2013 (2013-06-04), JP, pages 1 - 4, ISSN: 0004084046 * |
池田 大志 外2名: "Encoder−Decoderモデルを用いた日本語崩れ表記の正規化", 情報処理学会 研究報告 自然言語処理(NL) 2016−NL−228 [ONLINE], JPN6019028892, 22 September 2016 (2016-09-22), JP, pages 1 - 6, ISSN: 0004084045 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
JP7190283B2 (ja) | 2018-08-24 | 2022-12-15 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
JP2020134557A (ja) * | 2019-02-13 | 2020-08-31 | 株式会社ワコム | 文字データ生成装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6684693B2 (ja) | 2020-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN111401084B (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN111160041B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
JP6558863B2 (ja) | モデル作成装置、推定装置、方法、及びプログラム | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
US10394960B2 (en) | Transliteration decoding using a tree structure | |
CN110263321B (zh) | 一种情感词典构建方法及系统 | |
JP6145059B2 (ja) | モデル学習装置、形態素解析装置、及び方法 | |
KR20220128397A (ko) | 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱 | |
JP2018077677A (ja) | 文字列変換装置、モデル学習装置、方法、及びプログラム | |
CN114912418A (zh) | 一种基于多元语义特征和掩码策略的文本纠错方法和系统 | |
US10402489B2 (en) | Transliteration of text entry across scripts | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN116187304A (zh) | 一种基于改进bert的自动文本纠错算法及系统 | |
JP6558856B2 (ja) | 形態素解析装置、モデル学習装置、及びプログラム | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
KR20230059524A (ko) | 멀티 모달 데이터를 분석하기 위한 방법 및 장치 | |
JP7107059B2 (ja) | 文生成装置、モデル学習装置、文生成方法、モデル学習方法、及びプログラム | |
JP2018010481A (ja) | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム | |
KR100887726B1 (ko) | 자동 띄어쓰기 방법 및 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190730 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200324 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200330 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6684693 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |