JP2008071001A - 自然言語処理装置、およびプログラム - Google Patents
自然言語処理装置、およびプログラム Download PDFInfo
- Publication number
- JP2008071001A JP2008071001A JP2006247525A JP2006247525A JP2008071001A JP 2008071001 A JP2008071001 A JP 2008071001A JP 2006247525 A JP2006247525 A JP 2006247525A JP 2006247525 A JP2006247525 A JP 2006247525A JP 2008071001 A JP2008071001 A JP 2008071001A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- information
- sentence
- character
- connection symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】第一文字列と、文中における第一文字列の機能を特定する機能語情報と、前に接続され得る文字列の種類を特定する前接続記号と、後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する後接続記号とを有する辞書情報を1以上格納しており、解析対象の文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列の機能語情報または後接続記号から、第二文字列の種類を特定し、2以上の区切られた各第二文字列と、各第二文字列の種類を特定する情報を対にして出力する自然言語処理装置により、口語体の文章の解析が高い確度でできる。
【選択図】図1
Description
(実施の形態)
自然言語処理装置は、受付部10、文格納部11、辞書情報格納部12、文分割制御部13、出力部14を具備する。
(具体例1)
(具体例2)
11 文格納部
12 辞書情報格納部
13 文分割制御部
14 出力部
131 要素分割手段
132 要素連結手段
133 文字列取得手段
Claims (5)
- 文を格納し得る文格納部と、
第一文字列と、文中における前記第一文字列の機能または種類を特定する情報である機能語情報と、前記第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、前記第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納している辞書情報格納部と、
前記文格納部の文をメモリ上に読み出し、当該文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得する文分割制御部と、
前記文分割制御部が取得した2以上の区切られた各第二文字列と、各第二文字列の種類を特定する情報を対にして出力する出力部を具備する自然言語処理装置。 - 前記第二文字列の種類は、
少なくとも文の主題、文の副題、動作状態を含み、
前記出力部は、
主題に対応する第二文字列、副題に対応する第二文字列、動作状態に対応する第二文字列の順に、少なくとも3つの文字列を出力する請求項1記載の自然言語処理装置。 - 前記文分割制御部は、
前記文格納部の文をメモリ上に読み出し、当該文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、
前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記辞書情報格納部に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記辞書情報格納部に存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、
文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記辞書情報格納部から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、
文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割手段と、
前記要素分割手段が未知語情報を付与した連続する未知語であり、ひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、
前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、
隣接する2つの、前記要素分割手段が分割した要素またはまとまり情報を読み出し、
当該読み出した要素またはまとまり情報のうち、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、
連結可能な要素またはまとまり情報を一つの文字列にまとめて、当該まとめた文字列である第二文字列を複数の取得する要素連結手段と、
前記要素連結手段が取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、
当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得手段を具備する請求項1または請求項2記載の自然言語処理装置。 - 記憶媒体に、文を格納しており、
また、記憶媒体に、第一文字列と、文中における前記第一文字列の機能または種類を特定する情報である機能語情報と、前記第一文字列の前に接続され得る文字列の種類を特定する情報である前接続記号と、前記第一文字列の後ろに接続され得る文字列の種類、または区切りであることを示す記号であり、当該記号により区切られた文中における第二文字列の種類を特定する情報である後接続記号とを対に有する辞書情報を1以上格納しており、
コンピュータに、
前記記憶媒体から文をメモリ上に読み出し、当該文から区切りであることを示す後接続記号に対する第一文字列を取り出し、当該第一文字列をキーにして、文を2以上の文字列である2以上の第二文字列に区切り、当該第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記第二文字列の種類を特定する情報を取得し、当該第二文字列と第二文字列の種類を特定する情報を取得し、メモリ上に配置する文分割制御ステップと、
前記文分割制御ステップで取得した2以上の区切られた各第二文字列と、各第二文字列の種類を特定する情報を対にして、出力手段により出力する出力ステップとを実行させるためのプログラム。 - 前記文分割制御ステップは、
前記記憶媒体から文をメモリ上に読み出し、当該文の先頭から予め決められたサイズ(n文字[nは2以上の整数])の第三文字列を切り出し、メモリ上に配置し、
前記切り出した第三文字列を構成する文字列であって、先頭からn文字の文字列から順に、前記記憶媒体に当該文字列が存在するか否かを判断し、n文字の文字列が存在しない場合には、先頭から(n−1)文字の文字列が前記記憶媒体に存在するか否かを判断し、かかる判断を、1文字ずつ文字数を減らして、文字列が存在するまで行い、または、文字列が存在しない場合には、先頭から1文字になるまでかかる判断を行い、
文字列が存在すると判断した場合には、当該文字列に対応する機能語情報と前接続記号と後接続記号とを、前記記憶媒体から読み出し、読み出した機能語情報と前接続記号と後接続記号とを当該文字列に付与し、
文字列が存在しない場合には、1文字の文字列に対して未知語であることを示す情報である未知語情報を付与する要素分割ステップと、
前記要素分割ステップで未知語情報を付与した連続する未知語であり、ひらがなの文字を連結し文字列を構成し、かつ連続する未知語であり、ひらがなではない文字を連結し文字列を構成し、
前記連結した文字列、または連結されなかった未知語の文字に対してまとまりであることを示す文字列の種類を特定する情報であるまとまり情報を付与し、
隣接する2つの、前記要素分割ステップで分割した要素またはまとまり情報を読み出し、
当該読み出した要素またはまとまり情報のうち、前出の要素またはまとまり情報の後接続記号と、後出の要素またはまとまり情報の前接続記号から、前出の要素またはまとまり情報と後出の要素またはまとまり情報が連結可能であるか否かを判断し、
連結可能な要素またはまとまり情報を一つの文字列にまとめて、当該まとめた文字列である第二文字列を複数の取得し、メモリ上に配置する要素連結ステップと、
前記要素連結ステップで取得した複数の各第二文字列の最後尾の第一文字列に対応する機能語情報または後接続記号から、前記各第二文字列の種類を特定する情報を決定し、
当該複数の各第二文字列の種類を特定する情報と、当該複数の各第二文字列を対にした複数の対の情報をメモリ上に配置する文字列取得ステップを具備する請求項4記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006247525A JP4971732B2 (ja) | 2006-09-13 | 2006-09-13 | 自然言語処理装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006247525A JP4971732B2 (ja) | 2006-09-13 | 2006-09-13 | 自然言語処理装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008071001A true JP2008071001A (ja) | 2008-03-27 |
JP4971732B2 JP4971732B2 (ja) | 2012-07-11 |
Family
ID=39292546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006247525A Expired - Fee Related JP4971732B2 (ja) | 2006-09-13 | 2006-09-13 | 自然言語処理装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4971732B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017058804A (ja) * | 2015-09-15 | 2017-03-23 | 株式会社東芝 | 検出装置、方法およびプログラム |
CN110414763A (zh) * | 2018-04-26 | 2019-11-05 | 松下电器(美国)知识产权公司 | 人才选择装置、人才选择系统、人才选择方法及程序 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298353A (ja) * | 1992-04-20 | 1993-11-12 | Ricoh Co Ltd | 日本語形態素解析方法及びその装置 |
JPH09251460A (ja) * | 1996-03-18 | 1997-09-22 | Toshiba Corp | 自然言語処理方法および自然言語処理装置 |
-
2006
- 2006-09-13 JP JP2006247525A patent/JP4971732B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298353A (ja) * | 1992-04-20 | 1993-11-12 | Ricoh Co Ltd | 日本語形態素解析方法及びその装置 |
JPH09251460A (ja) * | 1996-03-18 | 1997-09-22 | Toshiba Corp | 自然言語処理方法および自然言語処理装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017058804A (ja) * | 2015-09-15 | 2017-03-23 | 株式会社東芝 | 検出装置、方法およびプログラム |
CN110414763A (zh) * | 2018-04-26 | 2019-11-05 | 松下电器(美国)知识产权公司 | 人才选择装置、人才选择系统、人才选择方法及程序 |
Also Published As
Publication number | Publication date |
---|---|
JP4971732B2 (ja) | 2012-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4635659B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
US9075793B2 (en) | System and method of providing autocomplete recommended word which interoperate with plurality of languages | |
JP2008287406A (ja) | 情報処理装置および情報処理方法、プログラム、並びに、記録媒体 | |
JP2017199363A (ja) | 機械翻訳装置及び機械翻訳のためのコンピュータプログラム | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
JP5697648B2 (ja) | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム | |
JP2009205357A (ja) | 中国語の品詞を判定する装置、方法およびプログラム | |
JP4971732B2 (ja) | 自然言語処理装置、およびプログラム | |
JP5272764B2 (ja) | 音声合成装置、音声合成方法及びコンピュータプログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP4476609B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
Kumolalo et al. | Development of a syllabicator for Yorùbá language | |
JP2019053262A (ja) | 学習システム | |
JP6607482B2 (ja) | 構文解析装置、学習装置、機械翻訳装置、およびプログラム | |
JP2019121164A (ja) | 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム | |
JP2007206796A (ja) | 文字処理装置、方法、プログラムおよび記録媒体 | |
JP6838471B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2007018462A (ja) | 機械翻訳装置、およびプログラム | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP5621145B2 (ja) | 文書チェック装置、文書チェックプログラムおよび文書チェック方法 | |
JP2009169113A (ja) | 言語モデル作成装置、言語モデル作成方法および言語モデル作成プログラム | |
JP2005157823A (ja) | 知識ベースシステム、および同システムにおける単語間の意味関係判別方法、ならびにそのコンピュータプログラム | |
JP2019109424A (ja) | 計算機、言語解析方法、及びプログラム | |
JP2010117832A (ja) | 関係情報抽出装置、その方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080624 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110817 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120328 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120406 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |