JP5697648B2 - 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム - Google Patents
単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム Download PDFInfo
- Publication number
- JP5697648B2 JP5697648B2 JP2012258722A JP2012258722A JP5697648B2 JP 5697648 B2 JP5697648 B2 JP 5697648B2 JP 2012258722 A JP2012258722 A JP 2012258722A JP 2012258722 A JP2012258722 A JP 2012258722A JP 5697648 B2 JP5697648 B2 JP 5697648B2
- Authority
- JP
- Japan
- Prior art keywords
- division
- word
- unit
- words
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 62
- 230000011218 segmentation Effects 0.000 claims description 66
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 241000238366 Cephalopoda Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Description
本実施の形態において、文を2以上の単語に分割する単語分割装置1について説明する。
さらに具体的には、第一分割部13は、単語分割用辞書を用いて、受付部12が受け付けた文を構成する文字列と一致する最大長の単語を、単語分割用辞書から取得し、当該取得した単語に対応する2以上の分割単語を取得して、文を分割して得られる2以上の単語の集合である第一分割結果を取得する。かかる処理をさらに詳細に説明すると、以下のような処理になる。第一分割部13は、単語分割用辞書を用いて、受付部12が受け付けた文を構成する1以上の文字列を取得する。そして、第一分割部13は、当該1以上の各文字列と一致する最大長の単語を単語分割用辞書から取得する。そして、第一分割部13は、単語分割用辞書から取得した1以上の各単語ごとに、単語に対応する2以上の分割単語を取得して、文を分割して得られる2以上の単語の集合である第一分割結果を取得する。
なお、第一分割部13は、文の中から最大長の文字列を検出するためのデータ構造として、公知技術である「トライ(trie)」が存在する。トライについて、以下の(1)〜(3)に記載されているので詳細な説明を省略する。
(1)徳永拓之著「日本語入力を支える技術」,89-99ページ
(2)インターネット ウェブページ,URL
「http://www.slideshare.net/higashiyama/ss-8738479」
(3)インターネット ウェブページ,URL
「http://nanika.osonae.com/DArray/dary.html」
」
また、図2のフローチャートにおいて、受け付けられた文の先頭から処理を開始し、文の終わりまで順に処理を行った。しかし、例えば、受け付けられた文の最後から処理を開始し、文の後から前の方向に処理を進めて行っても良い。つまり、ステップS202で、第一分割部13は、文のポインタpを文の最後に設定し、ステップS207で、ポインタpを、最大長の文字列長の分だけ、文の前に戻っても良い。かかる場合、ステップS203で、第一分割部13は、単語分割用辞書11に存在する単語であり、文の中のpに対応する文字から前にポインタを進めなて、最大長の文字列と一致する単語を検索する。そして、第一分割部13は、最大長の文字列である単語を単語分割用辞書11から取得する。
かかる状況において、受付部12は、文「正夫はしっかり者だ」を受け付けた、とする。次に、第一分割部13は、文のポインタpを1に設定する。つまり、ポインタpは文の「正」の位置に設定された。
受付部12は、文「そうはいってもまだ子供」を受け付けた、とする。次に、第一分割部13は、文のポインタpを1に設定する。つまり、ポインタpは文の「そ」の位置に設定された。
また、本実施の形態において、第二分割部21の代わりに、1以上の第二分割結果の集合である第二分割結果格納部26を用いても良い。かかる場合、判断部23は、第一分割結果と、第二分割結果格納部26に格納されている第二分割結果とが異なるか否かを判断する。そして、かかる場合、単語分割装置2は、単語分割用辞書11、受付部12、第一分割部13、出力部14、判断部23、分割情報取得部24、辞書登録部25、および第二分割結果格納部26を備える。かかる場合の単語分割装置2のブロック図を図11に示す。
そして、図11において、分割情報取得部24は、判断部23経由で、第二分割結果格納部26から第二分割結果を取得する。
なお、第二分割結果格納部26の第二分割結果の集合は、一定以上の多量のデータであり、人手で作成した単語分割済みのデータであることが好適である。また、第一分割結果と第二分割結果格納部26に格納されている第二分割結果とに関して、分割対象の文は同じである。
本実施の形態において、文の分割処理を行いながら、単語分割用辞書を充実させることができる単語分割装置1について説明する。
(実験1)
(実験2)
11 単語分割用辞書
12 受付部
13 第一分割部
14 出力部
21 第二分割部
22 第二分割結果取得部
23 判断部
24 分割情報取得部
25 辞書登録部
Claims (7)
- 1以上の文字を有する文を受け付ける受付部と、
1以上の単語と、単語と当該単語を分割した結果である2以上の分割単語の組である1以上の分割情報とを格納し得る単語分割用辞書を用いて、前記受付部が受け付けた文を構成する文字列と一致する最大長の単語を、前記単語分割用辞書から取得し、当該取得した単語に対応する2以上の分割単語を取得して、文を分割して得られる2以上の単語の集合である第一分割結果を取得する第一分割部と、
前記第一分割結果を出力する出力部と、
前記受付部が受け付けた文を前記第一分割部とは異なるアルゴリズムにより分割して得られた2以上の単語の集合である第二分割結果と、前記第一分割結果とが異なる箇所に基づく分割情報を前記単語分割用辞書に蓄積する辞書登録部とを具備する単語分割装置。 - 前記受付部が受け付けた文を、前記第一分割部とは異なるアルゴリズムにより文を分割して2以上の単語を取得する第二分割部を用いて、分割した2以上の単語の集合である第二分割結果を取得する第二分割結果取得部と、
前記第一分割結果と前記第二分割結果とが異なるか否かを判断する判断部と、
前記第一分割結果と前記第二分割結果とが異なると前記判断部が判断した場合、前記第一分割結果と前記第二分割結果とが異なる箇所に対応する文の中の文字列を取得し、当該異なる箇所に対応する前記第二分割結果に含まれる2以上の単語を取得し、前記取得した文字列である単語と、前記取得した2以上の単語とを有する分割情報を構成する分割情報取得部とをさらに具備し、
前記辞書登録部は、前記分割情報取得部によって構成された分割情報を前記単語分割用辞書に蓄積することを特徴とする請求項1記載の単語分割装置。 - 前記第一分割部とは異なるアルゴリズムにより、前記受付部が受け付けた文を分割して2以上の単語を取得する第二分割部をさらに具備する請求項2記載の単語分割装置。
- 前記第二分割部は、
ビタビアルゴリズムを用いた形態素解析のアルゴリズムにより、文を分割して2以上の単語を取得する請求項2または請求項3記載の単語分割装置。 - 前記単語分割用辞書を具備することを特徴とする請求項1〜4のいずれか1つに記載の単語分割装置。
- 受付部、第一分割部、出力部および辞書登録部により実現される単語分割方法であって、
前記受付部が、1以上の文字を有する文を受け付ける受付ステップと、
前記第一分割部が、1以上の単語と、単語と当該単語を分割した結果である2以上の分割単語の組である1以上の分割情報とを格納し得る単語分割用辞書を用いて、前記受付ステップで受け付けられた文を構成する文字列と一致する最大長の単語を、前記単語分割用辞書から取得し、当該取得した単語に対応する2以上の分割単語を取得して、文を分割して得られる2以上の単語の集合である第一分割結果を取得する第一分割ステップと、
前記出力部が、前記第一分割結果を出力する出力ステップと、
前記辞書登録部が、前記受付ステップで受け付けられた文を前記第一分割ステップとは異なるアルゴリズムにより分割して得られた2以上の単語の集合である第二分割結果と、前記第一分割結果とが異なる箇所に基づく分割情報を前記単語分割用辞書に蓄積するステップとを具備する単語分割方法。 - コンピュータを、
1以上の文字を有する文を受け付ける受付部と、
1以上の単語と、単語と当該単語を分割した結果である2以上の分割単語の組である1以上の分割情報とを格納し得る単語分割用辞書を用いて、前記受付部が受け付けた文を構成する文字列と一致する最大長の単語を、前記単語分割用辞書から取得し、当該取得した単語に対応する2以上の分割単語を取得して、文を分割して得られる2以上の単語の集合である第一分割結果を取得する第一分割部と、
前記第一分割結果を出力する出力部と、
前記受付部が受け付けた文を前記第一分割部とは異なるアルゴリズムにより分割して得られた2以上の単語の集合である第二分割結果と、前記第一分割結果とが異なる箇所に基づく分割情報を前記単語分割用辞書に蓄積する辞書登録部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012258722A JP5697648B2 (ja) | 2012-11-27 | 2012-11-27 | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012258722A JP5697648B2 (ja) | 2012-11-27 | 2012-11-27 | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014106707A JP2014106707A (ja) | 2014-06-09 |
JP5697648B2 true JP5697648B2 (ja) | 2015-04-08 |
Family
ID=51028146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012258722A Active JP5697648B2 (ja) | 2012-11-27 | 2012-11-27 | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5697648B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017004127A (ja) | 2015-06-05 | 2017-01-05 | 富士通株式会社 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
JP6972653B2 (ja) | 2017-05-16 | 2021-11-24 | 富士通株式会社 | 解析プログラム、解析方法および解析装置 |
KR102588185B1 (ko) * | 2018-09-28 | 2023-10-13 | 한국전자통신연구원 | 지식 그래프 기반 문장 분석 방법 |
CN112445912B (zh) * | 2020-11-06 | 2022-06-07 | 苏州浪潮智能科技有限公司 | 一种故障日志分类方法、系统、设备以及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251402A (ja) * | 2001-02-26 | 2002-09-06 | Mitsubishi Electric Corp | 文書検索方法及び文書検索装置 |
JP2003122749A (ja) * | 2001-10-17 | 2003-04-25 | Nippon Hoso Kyokai <Nhk> | 単語分割装置およびプログラム |
JP4953440B2 (ja) * | 2007-04-27 | 2012-06-13 | ヤフー株式会社 | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 |
JP5648956B2 (ja) * | 2009-09-30 | 2015-01-07 | 学校法人神奈川大学 | 漢字複合語分割方法及び漢字複合語分割装置 |
JP2011154061A (ja) * | 2010-01-26 | 2011-08-11 | Nec Corp | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 |
-
2012
- 2012-11-27 JP JP2012258722A patent/JP5697648B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014106707A (ja) | 2014-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007004633A (ja) | 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 | |
JP2007287134A (ja) | 情報抽出装置、及び情報抽出方法 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2008083952A (ja) | 辞書作成支援システム、方法及びプログラム | |
JP5697648B2 (ja) | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム | |
JP2015022590A (ja) | 文字入力装置、文字入力方法、及び文字入力プログラム | |
JPS61255469A (ja) | 言語生成装置 | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP5927955B2 (ja) | 情報処理装置及びプログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP7104390B2 (ja) | 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP6723726B2 (ja) | 入力支援装置 | |
JP5693552B2 (ja) | 辞書登録装置、単語分割装置、辞書登録方法、単語分割方法、およびプログラム | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP4971732B2 (ja) | 自然言語処理装置、およびプログラム | |
JP5870744B2 (ja) | 情報処理装置及びプログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2007018462A (ja) | 機械翻訳装置、およびプログラム | |
JP5137134B2 (ja) | 感性情報抽出・検索装置、その方法およびプログラム | |
JP4341077B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
JP7083473B2 (ja) | 入力支援装置 | |
JP2005044020A (ja) | 機械翻訳装置、プログラム及び機械翻訳方法 | |
JP2010117832A (ja) | 関係情報抽出装置、その方法、プログラム及び記録媒体 | |
JP4021813B2 (ja) | 複合語登録プログラムおよび登録装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140701 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5697648 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |