JP6145011B2 - 文正規化システム、文正規化方法及び文正規化プログラム - Google Patents
文正規化システム、文正規化方法及び文正規化プログラム Download PDFInfo
- Publication number
- JP6145011B2 JP6145011B2 JP2013197319A JP2013197319A JP6145011B2 JP 6145011 B2 JP6145011 B2 JP 6145011B2 JP 2013197319 A JP2013197319 A JP 2013197319A JP 2013197319 A JP2013197319 A JP 2013197319A JP 6145011 B2 JP6145011 B2 JP 6145011B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- content
- normalization
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010606 normalization Methods 0.000 title claims description 95
- 238000000605 extraction Methods 0.000 claims description 74
- 238000000926 separation method Methods 0.000 claims description 43
- 238000004458 analytical method Methods 0.000 claims description 42
- 230000000877 morphologic effect Effects 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 description 26
- 230000008878 coupling Effects 0.000 description 10
- 238000010168 coupling process Methods 0.000 description 10
- 238000005859 coupling reaction Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 235000010724 Wisteria floribunda Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000015243 ice cream Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
Claims (7)
- 文を入力する入力手段と、
前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
前記分離手段によって前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、
前記分離手段によって前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、
前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
を備え、
前記分離手段は、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化システム。 - 前記内容情報抽出手段は、内容情報として抽出した単語に疑問詞が含まれるか否か、又は内容情報として抽出した単語のうち末尾の単語が疑問文に対応する名詞であるか否かを判断することで前記文が疑問文であるか否かを判定すると共に、当該疑問詞又は当該末尾の単語に基づき当該疑問文の種別を判断する請求項1に記載の文正規化システム。
- 前記出力手段は、前記内容情報を前記自立語が前記文に登場した順序に応じたものとし、前記機能情報を、当該機能情報を示す文字列に従って一定の基準でソートして出力する請求項1又は2に記載の文正規化システム。
- 前記形態素解析手段によって分割された単語列に含まれる自立語のうち、予め設定された自立語を付属語とみなす請求項1〜3の何れか一項に記載の文正規化システム。
- 前記予め設定された自立語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて当該対象単語を付属語とみなす請求項4に記載の文正規化システム。
- 文正規化システムの動作方法である文正規化方法であって、
文を入力する入力ステップと、
前記入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、
前記形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、
前記分離ステップにおいて前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出ステップと、
前記分離ステップにおいて前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出ステップと、
前記内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力ステップと、
を含み、
前記分離ステップにおいて、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化方法。 - コンピュータを、
文を入力する入力手段と、
前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
前記分離手段によって前記文から分離された内容部に含まれる自立語全てを、当該文の内容を示す内容情報として抽出する内容情報抽出手段と、
前記分離手段によって前記文から分離された文末から、予め記憶された表記と当該文の機能表現を示す機能情報との対応に基づいて機能情報を抽出する機能情報抽出手段と、
前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
として機能させ、
前記分離手段は、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする文正規化プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013197319A JP6145011B2 (ja) | 2013-09-24 | 2013-09-24 | 文正規化システム、文正規化方法及び文正規化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013197319A JP6145011B2 (ja) | 2013-09-24 | 2013-09-24 | 文正規化システム、文正規化方法及び文正規化プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015064671A JP2015064671A (ja) | 2015-04-09 |
JP6145011B2 true JP6145011B2 (ja) | 2017-06-07 |
Family
ID=52832512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013197319A Active JP6145011B2 (ja) | 2013-09-24 | 2013-09-24 | 文正規化システム、文正規化方法及び文正規化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6145011B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522932B (zh) * | 2020-04-23 | 2023-05-16 | 北京百度网讯科技有限公司 | 一种信息抽取的方法、装置、设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050203934A1 (en) * | 2004-03-09 | 2005-09-15 | Microsoft Corporation | Compression of logs of language data |
JP5366849B2 (ja) * | 2010-02-04 | 2013-12-11 | 日本電信電話株式会社 | 機能表現補完装置、方法及びプログラム |
-
2013
- 2013-09-24 JP JP2013197319A patent/JP6145011B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015064671A (ja) | 2015-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
US9697477B2 (en) | Non-factoid question-answering system and computer program | |
JP3906356B2 (ja) | 構文解析方法及び装置 | |
KR101726667B1 (ko) | 어법컴파일방법, 어의해석방법, 디바이스, 컴퓨터 저장매체 및 장치 | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
TWI536183B (zh) | 語言歧義消除系統及方法 | |
Graliński et al. | PSI-toolkit: A natural language processing pipeline | |
US10740570B2 (en) | Contextual analogy representation | |
WO2012079257A1 (zh) | 机器翻译装置和方法 | |
KR20090061844A (ko) | 온톨로지 기반 시맨틱 메타데이터 추출 시스템 및 그 방법 | |
Reshadat et al. | A new open information extraction system using sentence difficulty estimation | |
Alosaimy et al. | Tagging classical Arabic text using available morphological analysers and part of speech taggers | |
US20210064820A1 (en) | Machine learning lexical discovery | |
US20210073466A1 (en) | Semantic vector rule discovery | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
Issam et al. | Goud. ma: a news article dataset for summarization in Moroccan Darija | |
JP6145011B2 (ja) | 文正規化システム、文正規化方法及び文正規化プログラム | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
Labidi | New combined method to improve Arabic POS tagging | |
US10325025B2 (en) | Contextual analogy representation | |
Ouersighni | Robust rule-based approach in Arabic processing | |
Ondáš et al. | Extracting sentence elements for the natural language understanding based on slovak national corpus | |
KR102581221B1 (ko) | 재생 중인 응답 발화를 제어 및 사용자 의도를 예측하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체 | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
Colton | Text classification using Python |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6145011 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |