JP6269953B2 - 単語分割装置、方法、及びプログラム - Google Patents
単語分割装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6269953B2 JP6269953B2 JP2014142404A JP2014142404A JP6269953B2 JP 6269953 B2 JP6269953 B2 JP 6269953B2 JP 2014142404 A JP2014142404 A JP 2014142404A JP 2014142404 A JP2014142404 A JP 2014142404A JP 6269953 B2 JP6269953 B2 JP 6269953B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- division
- characters
- character
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
まず、本実施の形態における原理について説明する。本実施の形態は、特に日本語の単語分割においてカタカナや漢字で構成される複合語における誤りが多いことに注目してなされるものである。本実施の形態は、大規模な対象分野の生コーパスにおいて単語分割の手がかりとなる文字列の統計量を計算し、生コーパス中で単語境界であると期待できる箇所を自動的に判定し、その箇所を単語分割のための追加学習用データとして利用することを特徴とする。
次に、本発明の第1の実施の形態に係る単語分割装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る単語分割装置1は、モデル学習装置100と、単語分割判定装置200とを含んで構成されている。
次に、本発明の第1の実施の形態に係るモデル学習装置の構成について説明する。図2に示すように、本発明の第1の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述する部分的単語分割コーパス処理ルーチン及びモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部90とを備えている。
(b)文字種n−gram:文字間の位置iの前後の部分文字列であり、窓幅mと長さnのパラメータがある場合、長さ2mの文字列xi−m+1…xi−1xixi+1…xi+mの長さnのすべての部分文字(文字n−gram)に含まれる文字種からなる素性である。ここで、文字種は、漢字、片仮名、平仮名、ローマ字、数字、及びその他の6つである。
(c)単語辞書素性:各長さkに対する、文字間の左の部分文字列xi−k+1xi−k+2…xiが単語として単語辞書記憶部44に記憶されている単語辞書に含まれているか否か、文字間の右の部分文字列xi+1xi+2…xi+kが単語として単語辞書記憶部44に記憶されている単語辞書に含まれているか否か、及び文字間をまたぐ部分文字列xi−j+1xi−j+2…xi−j+k
次に、本発明の第1の実施の形態に係る単語分割判定装置の構成について説明する。図4に示すように、本発明の第1の実施の形態に係る単語分割判定装置200は、CPUと、RAMと、後述する単語分割判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語分割判定装置200は、機能的には図4に示すように入力部210と、演算部220と、出力部290とを備えている。
次に、本発明の第1の実施の形態に係るモデル学習装置100の作用について説明する。まず、対象分野の文字列の集合である生コーパスを受け付け、生コーパス記憶部22に記憶する。そして、生コーパス記憶部22から生コーパスを読み出すと、モデル学習装置100は、図5に示す部分的単語分割コーパス処理ルーチンを実行する。また、部分的単語分割コーパス処理ルーチンが終了すると、モデル学習装置100は、図6に示すモデル学習処理ルーチンを実行する。
次に、本発明の第1の実施の形態に係る単語分割判定装置200の作用について説明する。まず、入力部210から、モデル学習装置100において学習された対象分野の文字列について単語分割する位置を判定するための単語分割モデルが入力され、モデル記憶部232に記憶される。そして、処理対象となる文字列を受け付けると、単語分割判定装置200は、図7に示す単語分割判定処理ルーチンを実行する。
本実施の形態で説明した手法を用いた実験において、一般的な日本語書き言葉の単語分割コーパスと、大量の日本語特許生コーパスを利用した場合、日本語特許文を単語分割した時の分割精度(F値)が本実施の形態による分野適応によって96.14%から97.42%に向上した。つまり、エラー率が3.86%から2.58%と約30%軽減されたことになり、この効果は大きい。なお、分割精度(F値)の定義を下記(4)式に示す。
10 入力部
20 演算部
22 生コーパス記憶部
24 統計量記憶部
30 追加学習コーパス部
32 統計量計算部
34 分割位置推定部
36 コーパス出力部
40 部分的単語分割コーパス記憶部
42 単語分割コーパス記憶部
44 単語辞書記憶部
50 統計モデル学習部
52 学習素性抽出部
54 モデル学習部
60 モデル記憶部
90 出力部
100 モデル学習装置
200 単語分割判定装置
210 入力部
220 演算部
230 単語辞書記憶部
232 モデル記憶部
240 単語分割処理部
242 素性抽出部
244 二値分類部
246 データ変換部
250 単語列記憶部
290 出力部
Claims (5)
- 対象分野の文字列の集合である生コーパスに含まれる文字列に基づいて部分文字列毎に計算された、前記部分文字列の前後に接続される文字の異なり数又は曖昧性に関する統計量に基づいて、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与する分割位置推定部と、
前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出する学習素性抽出部と、
前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習するモデル学習部と、
入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出する素性抽出部と、
前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する二値分類部と、
を含む、単語分割装置。 - 前記分割位置推定部は、前記生コーパスに含まれる、特定の文字種で構成される文字列の各々に対して、単語分割する位置及び単語分割しない位置を推定し、文字間の各々に、単語分割する位置を示すラベル、及び単語分割しない位置を示すラベルの何れか一つを付与し、
前記学習素性抽出部は、前記単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出する請求項1記載の単語分割装置。 - 前記分割位置推定部は、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、推定された単語分割する位置のうち、
前記元分野の単語分割コーパスに基づいて学習された、単語分割する位置を判定するための単語分割プログラムを用いて前記生コーパスに含まれる文字列の各々に対して単語分割する位置を推定した推定結果と一致する位置に、単語分割する位置を示すラベルを付与し、前記推定結果と一致しない位置に、分割有無不明位置を示すラベルを付与する請求項1記載の単語分割装置。 - 分割位置推定部と、学習素性抽出部と、モデル学習部と、素性抽出部と、二値分類部とを含む単語分割装置における、単語分割方法であって、
前記分割位置推定部は、対象分野の文字列の集合である生コーパスに含まれる文字列に基づいて部分文字列毎に計算された、前記部分文字列の前後に接続される文字の異なり数又は曖昧性に関する統計量に基づいて、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与し、
前記学習素性抽出部は、前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出し、
前記モデル学習部は、前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、
前記素性抽出部は、入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出し、
前記二値分類部は、前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する
単語分割方法。 - コンピュータを、請求項1〜請求項3の何れか1項記載の単語分割装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014142404A JP6269953B2 (ja) | 2014-07-10 | 2014-07-10 | 単語分割装置、方法、及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014142404A JP6269953B2 (ja) | 2014-07-10 | 2014-07-10 | 単語分割装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016018489A JP2016018489A (ja) | 2016-02-01 |
| JP6269953B2 true JP6269953B2 (ja) | 2018-01-31 |
Family
ID=55233639
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014142404A Active JP6269953B2 (ja) | 2014-07-10 | 2014-07-10 | 単語分割装置、方法、及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6269953B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111859948B (zh) * | 2019-04-28 | 2024-06-11 | 北京嘀嘀无限科技发展有限公司 | 语言识别、语言模型训练、字符预测方法及装置 |
| JP7752526B2 (ja) * | 2021-12-20 | 2025-10-10 | 株式会社LegalOn Technologies | 自然言語処理システム、自然言語処理方法及び自然言語処理プログラム |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09270917A (ja) * | 1996-04-02 | 1997-10-14 | Ricoh Co Ltd | 画像処理装置 |
| JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
| JP4652737B2 (ja) * | 2004-07-14 | 2011-03-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
-
2014
- 2014-07-10 JP JP2014142404A patent/JP6269953B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016018489A (ja) | 2016-02-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
| US10061768B2 (en) | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus | |
| CN111914825B (zh) | 文字识别方法、装置及电子设备 | |
| CN106815197B (zh) | 文本相似度的确定方法和装置 | |
| US11010554B2 (en) | Method and device for identifying specific text information | |
| CN111859964B (zh) | 一种语句中命名实体的识别方法及装置 | |
| CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
| CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
| CN104978354B (zh) | 文本分类方法和装置 | |
| CN111079412A (zh) | 文本纠错方法及装置 | |
| JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
| WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
| CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
| US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
| US20220284185A1 (en) | Storage medium, information processing method, and information processing device | |
| CN112863484A (zh) | 韵律短语边界预测模型训练方法和韵律短语边界预测方法 | |
| KR20170004983A (ko) | 라인 분할 방법 | |
| Berg-Kirkpatrick et al. | Improved typesetting models for historical OCR | |
| CN107797986B (zh) | 一种基于lstm-cnn的混合语料分词方法 | |
| JP6269953B2 (ja) | 単語分割装置、方法、及びプログラム | |
| Yeh et al. | Chinese spelling check based on N-gram and string matching algorithm | |
| CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
| CN113822060A (zh) | 标点恢复方法、装置、计算机设备及存储介质 | |
| US10896296B2 (en) | Non-transitory computer readable recording medium, specifying method, and information processing apparatus | |
| Cocks | A word-based approach for diacritic restoration in Māori |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160715 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160715 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170419 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170425 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170626 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171212 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6269953 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |