JP2018077677A - 文字列変換装置、モデル学習装置、方法、及びプログラム - Google Patents
文字列変換装置、モデル学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2018077677A JP2018077677A JP2016218997A JP2016218997A JP2018077677A JP 2018077677 A JP2018077677 A JP 2018077677A JP 2016218997 A JP2016218997 A JP 2016218997A JP 2016218997 A JP2016218997 A JP 2016218997A JP 2018077677 A JP2018077677 A JP 2018077677A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- word
- partial
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
・・・(1)
・・・(2)
・・・(3)
20 演算部
30 文字列アライメント部
32 判定モデル学習部
34 変換モデル学習部
40,240 判定モデル
42,242 変換モデル
100 モデル学習装置
200 文字列変換装置
210 入力部
220 演算部
230 部分文字列特定部
232 文字列変換部
250 出力部
Claims (8)
- 入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定する部分文字列特定部と、
前記部分文字列特定部によって特定された部分文字列に対して、前記崩れ語を前記正規語に変換するための変換モデルに基づいて、前記部分文字列を変換することにより、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、
を含む文字列変換装置。 - 前記変換モデルは、前記崩れ語より前の文脈及び前記崩れ語より後の文脈を考慮して、前記崩れ語を前記正規語に変換するための変換モデルであり、
前記文字列変換部は、前記部分文字列特定部によって特定された部分文字列に対して、前記変換モデルと、前記文字列における前記部分文字列より前の文脈及び前記部分文字列より後の文脈とに基づいて、前記部分文字列を変換する請求項1記載の文字列変換装置。 - 前記判定モデルは、判定対象の文字、前記判定対象の文字より前の文字列、及び前記判定対象の文字より後の文字列を入力とし、前記判定対象の文字が崩れ語の文字である確率を出力するニューラルネットワークであり、
前記変換モデルは、変換対象の部分文字列、前記変換対象の部分文字列より前の文字列、及び前記変換対象の部分文字列より後の文字列を入力とし、変換対象の部分文字列を変換した変換後の部分文字列の文字の各々について、各文字である確率を出力するニューラルネットワークである請求項1又は2記載の文字列変換装置。 - 入力された、正規化された表現である正規語からなる正規化文と、前記正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、前記複数のペアの各々について、前記正規化文に含まれる各文字と、前記崩れ文に含まれる各文字との対応関係を求める文字列アライメント部と、
前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習する判定モデル学習部と、
前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語を前記正規語に変換するための変換モデルを学習する変換モデル学習部と、
を含むモデル学習装置。 - 部分文字列特定部が、入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定するステップと、
文字列変換部が、前記部分文字列特定部によって特定された部分文字列に対して、前記崩れ語を前記正規語に変換するための変換モデルに基づいて、前記部分文字列を変換することにより、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、
を含む文字列変換方法。 - 文字列アライメント部が、入力された、正規化された表現である正規語からなる正規化文と、前記正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、前記複数のペアの各々について、前記正規化文に含まれる各文字と、前記崩れ文に含まれる各文字との対応関係を求めるステップと、
判定モデル学習部が、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習するステップと、
変換モデル学習部が、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語を前記正規語に変換するための変換モデルを学習するステップと、
を含むモデル学習方法。 - コンピュータを、請求項1〜請求項3のいずれか1項に記載の文字列変換装置の各部として機能させるためのプログラム。
- コンピュータを、請求項4に記載のモデル学習装置の各部として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016218997A JP6684693B2 (ja) | 2016-11-09 | 2016-11-09 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016218997A JP6684693B2 (ja) | 2016-11-09 | 2016-11-09 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018077677A true JP2018077677A (ja) | 2018-05-17 |
| JP6684693B2 JP6684693B2 (ja) | 2020-04-22 |
Family
ID=62150499
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016218997A Active JP6684693B2 (ja) | 2016-11-09 | 2016-11-09 | 文字列変換装置、モデル学習装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6684693B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
| JP2020134557A (ja) * | 2019-02-13 | 2020-08-31 | 株式会社ワコム | 文字データ生成装置、方法及びプログラム |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015169947A (ja) * | 2014-03-04 | 2015-09-28 | 日本電信電話株式会社 | モデル学習装置、形態素解析装置、及び方法 |
| JP2016081379A (ja) * | 2014-10-20 | 2016-05-16 | 日本電信電話株式会社 | モデル学習装置、文字列変換装置、方法、及びプログラム |
-
2016
- 2016-11-09 JP JP2016218997A patent/JP6684693B2/ja active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015169947A (ja) * | 2014-03-04 | 2015-09-28 | 日本電信電話株式会社 | モデル学習装置、形態素解析装置、及び方法 |
| JP2016081379A (ja) * | 2014-10-20 | 2016-05-16 | 日本電信電話株式会社 | モデル学習装置、文字列変換装置、方法、及びプログラム |
Non-Patent Citations (2)
| Title |
|---|
| 佐々木 彬 外3名: "機械学習に基づくマイクロブログ上のテキストの正規化", 第27回全国大会論文集 [CD−ROM] 2013年度 人工知能学会全国大会(第27回)論文集, JPN6019028894, 4 June 2013 (2013-06-04), JP, pages 1 - 4, ISSN: 0004084046 * |
| 池田 大志 外2名: "Encoder−Decoderモデルを用いた日本語崩れ表記の正規化", 情報処理学会 研究報告 自然言語処理(NL) 2016−NL−228 [ONLINE], JPN6019028892, 22 September 2016 (2016-09-22), JP, pages 1 - 6, ISSN: 0004084045 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
| JP7190283B2 (ja) | 2018-08-24 | 2022-12-15 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
| JP2020134557A (ja) * | 2019-02-13 | 2020-08-31 | 株式会社ワコム | 文字データ生成装置、方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6684693B2 (ja) | 2020-04-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
| US20210034817A1 (en) | Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system | |
| CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
| JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
| CN108536670B (zh) | 输出语句生成装置、方法和程序 | |
| US12283278B2 (en) | Alphanumeric sequence biasing for automatic speech recognition using a rendered system prompt | |
| CN111160041B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
| CN113761883B (zh) | 一种文本信息识别方法、装置、电子设备及存储介质 | |
| TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
| CN114254643A (zh) | 文本纠错方法、装置、电子设备与存储介质 | |
| JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
| JP2018025956A (ja) | モデル作成装置、推定装置、方法、及びプログラム | |
| US10402489B2 (en) | Transliteration of text entry across scripts | |
| CN112380861B (zh) | 模型训练方法、装置及意图识别方法、装置 | |
| JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
| JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
| JP2018077677A (ja) | 文字列変換装置、モデル学習装置、方法、及びプログラム | |
| JP6558856B2 (ja) | 形態素解析装置、モデル学習装置、及びプログラム | |
| CN111737957B (zh) | 汉字拼音转换方法、装置、电子设备及存储介质 | |
| JP7107059B2 (ja) | 文生成装置、モデル学習装置、文生成方法、モデル学習方法、及びプログラム | |
| CN114398876B (zh) | 一种基于有限状态转换器的文本纠错方法和装置 | |
| KR100887726B1 (ko) | 자동 띄어쓰기 방법 및 그 시스템 | |
| JP7615923B2 (ja) | 応答システム、応答方法、および応答プログラム | |
| CN110399608A (zh) | 一种基于拼音的对话系统文本纠错系统及方法 | |
| CN110245331A (zh) | 一种语句转换方法、装置、服务器及计算机存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181205 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190625 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190730 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190927 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191015 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200324 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200330 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6684693 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |