JP2021051613A - 自然言語処理において使用される辞書を作成する方法およびシステム - Google Patents
自然言語処理において使用される辞書を作成する方法およびシステム Download PDFInfo
- Publication number
- JP2021051613A JP2021051613A JP2019174797A JP2019174797A JP2021051613A JP 2021051613 A JP2021051613 A JP 2021051613A JP 2019174797 A JP2019174797 A JP 2019174797A JP 2019174797 A JP2019174797 A JP 2019174797A JP 2021051613 A JP2021051613 A JP 2021051613A
- Authority
- JP
- Japan
- Prior art keywords
- word
- concatenated
- dictionary
- attribute
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000003058 natural language processing Methods 0.000 title abstract description 14
- 238000012790 confirmation Methods 0.000 claims description 19
- 230000021615 conjugation Effects 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Abstract
Description
・一つ以上のI/O(Input/Output)インターフェースデバイス。I/O(Input/Output)インターフェースデバイスは、I/Oデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するI/Oインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのI/Oデバイスは、ユーザインターフェースデバイス、例えば、キーボードおよびポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
・S509は必ずしも行われないでよい。この場合、専門辞書170を使用した自然言語処理(例えば分析)を行うコンピュータプログラムが、専門辞書170に登録されている連結単語毎の出現数を基に、いずれの連結単語を使用するかを決定してよい。
・連結単語毎に連結単語を専門辞書170に登録することに代えて、作成された連結単語と出現数のペアは、記憶装置60におけるメモリのような一時領域に蓄積され、最後の単語が選択単語とされ処理が終了したときに、一時領域における連結単語と出現数のペアが、連結単語登録部140により、専門辞書170に登録されてよい。その際、出現数が所定の条件を満たしていない連結単語は、専門辞書170に登録されないでよい。
・連結単語に付与される単語属性がラベルを含む場合、当該ラベルは、ユーザインターフェース経由でユーザから入力されたラベルでもよいし、連結単語の少なくとも一部の文字列(例えば単語)から所定の規則に基づき例えば単語連結部130により決定されたラベルでもよい。
110 単語分割部
120 連結条件確認部
130 単語連結部
140 連結単語登録部
150 一般辞書
160 単語組合せ一覧表
170 専門辞書
200 クライアント
300 ネットワーク
Claims (20)
- (A)入力された文書に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件を満たしているか否かを判定し、
(B)(A)の判定結果が真であれば、
前記選択単語と前記隣接単語とを連結した連結単語を作成し、
当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与し、
(C)単語属性が付与された連結単語を辞書に登録する、
辞書作成方法。 - 前記選択単語は、前記文書において選択単語とされていない一つ以上の単語から所定の規則に従って選択された単語であり、
(B)の後、前記文書において選択単語とされていない単語があれば、(A)を行い、当該(A)において、前記隣接単語が、当該(A)の前に行われた(B)において作成された連結単語である、
請求項1に記載の辞書作成方法。 - (D)(A)の判定結果が偽であれば、
前記選択単語の直前または直後の単語が連結単語か否かを判定し、
当該判定の結果が真であれば、当該連結単語について(C)を行い、
(B)または(D)の後、前記文書において選択単語とされていない単語があれば、(A)を行う、
請求項2に記載の辞書作成方法。 - 前記作成された連結単語に付与された単語属性は、当該連結単語を構成する二つ以上の単語のうちの最後の単語の単語属性に基づいている、
請求項1に記載の辞書作成方法。 - (B)において、
前記作成されたまたは前記辞書に登録された連結単語の単語属性の少なくとも一部を受け付けるユーザインターフェースを提供し、
当該ユーザインターフェースを介して、前記辞書に登録された連結単語のうちユーザにより指定された連結単語について、当該連結単語の修正要求を受け付け、
前記指定された連結単語の単語属性を、前記受け付けた修正要求に従う単語属性に変更する、
請求項1に記載の辞書作成方法。 - 少なくとも一つの単語属性は、品詞細分類および活用形の少なくとも一つを含む、
請求項1に記載の辞書作成方法。 - 前記所定の連結条件は、連続した二つの単語のうちの前の単語の単語属性についての複数の品詞細分類と複数の活用形と、当該連続した二つの単語のうちの後の単語の単語属性についての複数の品詞細分類と複数の活用形との間のうち、連結単語とすることが許可される組合せを表す、
請求項6に記載の辞書作成方法。 - 少なくとも一つの単語属性は、当該単語属性に付与された単語の意味を表すラベルを含む、
請求項1に記載の辞書作成方法。 - (B)において作成された連結単語が登録される辞書は、前記文書にある一つ以上の文字列を前記複数の単語に分解するために使用される辞書とは別の辞書である、
請求項8に記載の辞書作成方法。 - 作成された連結単語毎に出現数を算出し、
出現数が所定の条件を満たしていない連結単語を前記辞書に登録しないまたは前記辞書から削除する、
請求項1に記載の辞書作成方法。 - 入力された文書に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件を満たしているか否かを判定する連結条件確認部と、
前記判定の結果が真であれば、前記選択単語と前記隣接単語とを連結した連結単語を作成し、当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与する単語連結部と、
単語属性が付与された連結単語を辞書に登録する連結単語登録部と
を備える辞書作成システム。 - 前記選択単語は、前記文書において選択単語とされていない一つ以上の単語から所定の規則に従って選択された単語であり、
前記単語連結部により連結単語に対し単語属性が付与された後、前記文書において選択単語とされていない単語があれば、
前記連結条件確認部が、当該単語について前記判定を行い、
当該判定において、前記隣接単語が、当該判定の前に前記単語連結部により作成された連結単語である、
請求項11に記載の辞書作成システム。 - 前記連結条件確認部による判定の結果が偽であれば、前記連結単語登録部が、
前記選択単語の直前または直後の単語が連結単語か否かを判定し、
当該判定の結果が真であれば、当該連結単語を前記辞書に登録する、
請求項12に記載の辞書作成システム。 - 前記作成された連結単語に付与された単語属性は、当該連結単語を構成する二つ以上の単語のうちの最後の単語の単語属性に基づいている、
請求項11に記載の辞書作成システム。 - 前記連結単語登録部は、
前記作成されたまたは前記辞書に登録された連結単語の単語属性の少なくとも一部を受け付けるユーザインターフェースを提供し、
当該ユーザインターフェースを介して、前記辞書に登録された連結単語のうちユーザにより指定された連結単語について、当該連結単語の修正要求を受け付け、
前記指定された連結単語の単語属性を、前記受け付けた修正要求に従う単語属性に変更する、
請求項11に記載の辞書作成システム。 - 少なくとも一つの単語属性は、品詞細分類および活用形の少なくとも一つを含む、
請求項11に記載の辞書作成システム。 - 前記所定の連結条件は、連続した二つの単語のうちの前の単語の単語属性についての複数の品詞細分類と複数の活用形と、当該連続した二つの単語のうちの後の単語の単語属性についての複数の品詞細分類と複数の活用形との間のうち、連結単語とすることが許可される組合せを表す、
請求項16に記載の辞書作成システム。 - 少なくとも一つの単語属性は、当該単語属性に付与された単語の意味を表すラベルを含む、
請求項11に記載の辞書作成システム。 - 前記連結単語登録部は、作成された連結単語毎に出現数を算出し、
前記連結単語登録部は、出現数が所定の条件を満たしていない連結単語を前記辞書に登録しないまたは前記辞書から削除する、
請求項11に記載の辞書作成システム。 - (A)入力された文書に存在する複数の単語のうちのいずれかの単語である選択単語の品詞を含む単語属性と、当該選択単語の直前の単語および直後の単語のうちの少なくとも一つの単語である隣接単語の品詞を含む単語属性が、所定の連結条件を満たしているか否かを判定し、
(B)(A)の判定結果が真であれば、
前記選択単語と前記隣接単語とを連結した連結単語を作成し、
当該連結単語を構成する二つ以上の単語の少なくとも一つの単語の単語属性に基づく属性であり当該連結単語の品詞を含む単語属性を当該連結単語に対して付与し、
(C)単語属性が付与された連結単語を辞書に登録する、
ことをコンピュータに実行させるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019174797A JP2021051613A (ja) | 2019-09-25 | 2019-09-25 | 自然言語処理において使用される辞書を作成する方法およびシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019174797A JP2021051613A (ja) | 2019-09-25 | 2019-09-25 | 自然言語処理において使用される辞書を作成する方法およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021051613A true JP2021051613A (ja) | 2021-04-01 |
Family
ID=75156249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019174797A Pending JP2021051613A (ja) | 2019-09-25 | 2019-09-25 | 自然言語処理において使用される辞書を作成する方法およびシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021051613A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0675264B2 (ja) * | 1989-08-10 | 1994-09-21 | 日本電気株式会社 | 複合語の辞書情報推定装置 |
JPH11134334A (ja) * | 1997-10-29 | 1999-05-21 | Fujitsu Ltd | 単語登録装置及び記録媒体 |
JP2002157241A (ja) * | 2000-09-06 | 2002-05-31 | Fujitsu Ltd | 辞書作成装置 |
JP2010009355A (ja) * | 2008-06-27 | 2010-01-14 | Sony Corp | 電子機器、形態素複合方法及びそのプログラム |
JP2013174995A (ja) * | 2012-02-24 | 2013-09-05 | Nippon Hoso Kyokai <Nhk> | 基本語彙抽出装置、及びプログラム |
-
2019
- 2019-09-25 JP JP2019174797A patent/JP2021051613A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0675264B2 (ja) * | 1989-08-10 | 1994-09-21 | 日本電気株式会社 | 複合語の辞書情報推定装置 |
JPH11134334A (ja) * | 1997-10-29 | 1999-05-21 | Fujitsu Ltd | 単語登録装置及び記録媒体 |
JP2002157241A (ja) * | 2000-09-06 | 2002-05-31 | Fujitsu Ltd | 辞書作成装置 |
JP2010009355A (ja) * | 2008-06-27 | 2010-01-14 | Sony Corp | 電子機器、形態素複合方法及びそのプログラム |
JP2013174995A (ja) * | 2012-02-24 | 2013-09-05 | Nippon Hoso Kyokai <Nhk> | 基本語彙抽出装置、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10275443B2 (en) | Hybrid grammatical and ungrammatical parsing | |
US20220092252A1 (en) | Method for generating summary, electronic device and storage medium thereof | |
US10140260B2 (en) | Intelligent text reduction for graphical interface elements | |
WO2016125031A1 (en) | Modifying a tokenizer based on pseudo data for natural language processing | |
JP6532088B2 (ja) | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 | |
CN110678868B (zh) | 翻译支持系统、装置和方法以及计算机可读介质 | |
EP2927825A1 (en) | Input string matching for domain names | |
US10261989B2 (en) | Method of and system for mapping a source lexical unit of a first language to a target lexical unit of a second language | |
US10503808B2 (en) | Time user interface with intelligent text reduction | |
CN102063508A (zh) | 基于广义后缀树的中文搜索引擎模糊自动补全方法 | |
CN109271641A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
US20220067290A1 (en) | Automatically identifying multi-word expressions | |
US20220005461A1 (en) | Method for recognizing a slot, and electronic device | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
US11074402B1 (en) | Linguistically consistent document annotation | |
US10540445B2 (en) | Intelligent integration of graphical elements into context for screen reader applications | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
US10509812B2 (en) | Reducing translation volume and ensuring consistent text strings in software development | |
US11120224B2 (en) | Efficient translating of social media posts | |
US9495638B2 (en) | Scalable, rule-based processing | |
US9886498B2 (en) | Title standardization | |
RU2595531C2 (ru) | Способ и система генерирования определения слова на основе множественных источников | |
US11086600B2 (en) | Back-end application code stub generation from a front-end application wireframe | |
JP2021051613A (ja) | 自然言語処理において使用される辞書を作成する方法およびシステム | |
KR102531507B1 (ko) | 정보 출력 방법, 장치, 기기 및 저장 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230317 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231212 |