JP2020160782A - 自然言語データ処理装置およびプログラム - Google Patents
自然言語データ処理装置およびプログラム Download PDFInfo
- Publication number
- JP2020160782A JP2020160782A JP2019059300A JP2019059300A JP2020160782A JP 2020160782 A JP2020160782 A JP 2020160782A JP 2019059300 A JP2019059300 A JP 2019059300A JP 2019059300 A JP2019059300 A JP 2019059300A JP 2020160782 A JP2020160782 A JP 2020160782A
- Authority
- JP
- Japan
- Prior art keywords
- natural language
- token
- string
- processing
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 338
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims description 50
- 230000008569 process Effects 0.000 claims description 31
- 238000010801 machine learning Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 15
- 230000000877 morphologic effect Effects 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001784 detoxification Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
人工知能処理部20は、その内部の構成として、機械学習部21と、学習モデル22と、処理実行部23とを含む。
この構成により、人工知能処理部20は、学習モードで動作する場合には、機械学習用のデータ(入力側および出力側の、それぞれのトークン列データ)を学習データ供給部11から受け取る。人工知能処理部20は、処理モードで動作する場合には、処理の入力となるデータ(トークン列データ)を処理データ供給部12から受け取り、処理結果の出力データ(トークン列データ)を処理結果データ取得部13に渡す。
図2に示すように、本例では、入力される自然言語データは、記号(文字等)の列であり、「I've found "The dog."」というものである。この記号列を単語等に分割してそれらの各々をトークンとして、さらに第2特殊トークンを挿入したデータが、出力トークン列である。出力トークン列に含まれる各トークンには参照番号(T1からT12まで)を付している。出力トークン列のうちの、トークンT1,T3,T4,T5,T7,T8,T10,T12は、入力された自然言語データから取り出された単語等である。トークンT3は、語の省略形を示すアポストロフィーを含む「've」に対応する。トークンT5およびT12のそれぞれは、引用符(ダブルクォーテーション)に対応する。トークンT10は、ピリオドに対応する。そして、トークンT2,T6,T9,T11は、単語等の間に空白文字がないことを表すための第2特殊トークンである。第2特殊トークンは [sp]と表記されている。例えば、トークンT2は、第2特殊トークンであり、トークンT1の「I」とトークンT3の「've」との間に空白文字が存在しないことを表すものである。
(1)空白文字で区切られた単語を1つのトークンとするために切り出す。
(2)空白文字で区切られていなくても、例えば「have」の省略である「've」や、「is」あるいは「has」の省略形である「's」を、1つのトークンとするために切り出す。
(3)カンマや、ピリオドや、クォーテーションマーク等の記号を、1つのトークンとするために切り出す。
上の実施形態では、第2型の言語について、空白文字が存在する箇所に第1特殊トークンを用いることとした。第1変形例として、複数種類の空白文字が存在する場合に、空白文字の各種類に対応した複数種類の第1特殊トークンを用いるようにしてもよい。例えば、日本語の文を表現する場合に、いわゆる全角の空白文字と、半角の空白文字とを使い分ける場合がある。全角の空白文字と半角の空白文字とが混在すること自体の是非はともかくとして、本変形例は、このような状況に対応できるようにする。本変形例では、これらの、全角の空白文字と半角の空白文字に、別々の第1特殊トークンを対応付けて、これら両者のトークンを識別可能とする。学習モデル22の学習の際にも、これら両特殊トークンの、片方のみを含んだ学習データや、両方を含んだ学習データなどを用いて、機械学習処理を行うようにする。そのように学習した学習モデル22を使用することにより、処理実行部23は、適宜、全角あるいは半角の空白文字にそれぞれ対応する第1特殊トークンを含んだ処理結果を出力する。この場合、非トークン化処理部6は、非トークン化処理において、全角の空白文字に対応する第1特殊トークンが存在する位置には、全角の空白文字を挿入する。また、半角の空白文字に対応する第1特殊トークンが存在する位置には、半角の空白文字を挿入する。
人工知能処理部20が、機械学習を行う機能を持たない構成としてもよい。この場合、人工知能処理部20が機械学習部21を持たない構成としてもよい。この場合、学習モデル22は機械学習済みである。機械学習済みの学習モデル22を、外部で作成し、その学習モデルのデータ(学習パラメーター等)を複写して取り込んだものであってもよい。
2,3 自然言語データ取得部
4,5 トークン化処理部
6 非トークン化処理部
7 自然言語データ出力部
11 学習データ供給部
12 処理データ供給部
13 処理結果データ取得部
20 人工知能処理部
21 機械学習部
22 学習モデル
23 処理実行部
Claims (9)
- 記号の列として、自然言語データを取得する自然言語データ取得部と、
前記自然言語データを形態素に対応するトークンの列に変換するとともに、前記自然言語データにおいて形態素間に特定記号が含まれていた箇所を表す第1特殊トークンまたは前記自然言語データにおいて形態素間に特定記号が含まれていなかった箇所を表す第2特殊トークンのいずれかを前記トークンの列に挿入し、トークン列として出力するトークン化処理部と、
学習モデルを含む人工知能処理部に、前記学習モデルを学習させるための前記トークン化処理部から出力される入力トークン列と出力トークン列とのペア、または前記学習モデルによる処理を実行するための前記トークン化処理部から出力される入力トークン列のいずれかを供給する供給部と、
を備える自然言語データ処理装置。 - 前記供給部が供給した前記入力トークン列に基づいて前記人工知能処理部が処理を実行した結果として出力される出力トークン列を取得する処理結果データ取得部と、
前記処理結果データ取得部が取得した出力トークン列を記号の列に変換して出力する非トークン化処理部と、
を備え、
前記非トークン化処理部は、前記出力トークン列に含まれる前記第1特殊トークンを当該第1特殊トークンに対応する特定記号に置換し、前記出力トークン列に含まれる前記第2特殊トークンの箇所には前記特定記号を挿入しない、
請求項1に記載の自然言語データ処理装置。 - 前記トークン化処理部は、前記自然言語データの言語の種別に応じて、前記第1特殊トークンまたは前記第2特殊トークンのいずれか一方のみを前記トークンの列に挿入する、
請求項1または請求項2に記載の自然言語データ処理装置。 - 学習モデルを含む人工知能処理部、
をさらに備え、
前記人工知能処理部は、前記供給部が供給した前記入力トークン列を入力として、前記学習モデルに基づく処理を実行する、
請求項1から3までのいずれか一項に記載の自然言語データ処理装置。 - 前記人工知能処理部は、前記供給部が供給した前記入力トークン列を入力として、前記学習モデルに基づき、自然言語の翻訳処理と、自然言語の要約処理と、自然言語の応答処理とのいずれかの処理を実行する、
請求項4に記載の自然言語データ処理装置。 - 前記人工知能処理部は、前記トークン化処理部から出力される入力トークン列と出力トークン列とのペアを用いて、前記学習モデルの機械学習処理を行う、
請求項4または請求項5に記載の自然言語データ処理装置。 - 学習モデルを含む人工知能処理部が処理を実行した結果として出力される出力トークン列を取得する処理結果データ取得部と、
前記処理結果データ取得部が取得した出力トークン列を記号の列に変換して出力する非トークン化処理部と、
を備え、
前記出力トークン列は、自然言語における形態素に対応するトークンを含み、
前記出力トークン列は、自然言語の表現として形態素間に特定記号が含まれる箇所を表す第1特殊トークン、または自然言語の表現として形態素間に特定記号が含まれていなかった箇所を表す第2特殊トークンのいずれかを含み、
前記非トークン化処理部は、前記出力トークン列に含まれる前記第1特殊トークンを当該第1特殊トークンに対応する特定記号に置換し、前記出力トークン列に含まれる前記第2特殊トークンの箇所には前記特定記号を挿入しない、
自然言語データ処理装置。 - コンピューターを、
記号の列として自然言語データを取得する自然言語データ取得部と、
前記自然言語データ取得部が取得した前記自然言語データを形態素に対応するトークンの列に変換するとともに、前記自然言語データにおいて形態素間に特定記号が含まれていた箇所を表す第1特殊トークンまたは前記自然言語データにおいて形態素間に特定記号が含まれていなかった箇所を表す第2特殊トークンのいずれかを前記トークンの列に挿入して、トークン列として出力するトークン化処理部と、
学習モデルを含む人工知能処理部に対して、前記学習モデルを学習させるための前記トークン化処理部から出力される入力トークン列と出力トークン列とのペア、または前記学習モデルによる処理を実行するための前記トークン化処理部から出力される入力トークン列のいずれかを供給する供給部と、
を備える自然言語データ処理装置、として機能させるためのプログラム。 - コンピューターを、
学習モデルを含む人工知能処理部が処理を実行した結果として出力される出力トークン列を取得する処理結果データ取得部と、
前記処理結果データ取得部が取得した出力トークン列を記号の列に変換して出力する非トークン化処理部と、
を備える自然言語データ処理装置として機能させるためのプログラムであって、
前記出力トークン列は、自然言語における形態素に対応するトークンを含み、
前記出力トークン列は、自然言語の表現として形態素間に特定記号が含まれる箇所を表す第1特殊トークン、または自然言語の表現として形態素間に特定記号が含まれていなかった箇所を表す第2特殊トークンのいずれかを含み、
前記非トークン化処理部は、前記出力トークン列に含まれる前記第1特殊トークンを当該第1特殊トークンに対応する特定記号に置換し、前記出力トークン列に含まれる前記第2特殊トークンの箇所には前記特定記号を挿入しない、
自然言語データ処理装置、として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019059300A JP7253951B2 (ja) | 2019-03-26 | 2019-03-26 | 自然言語データ処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019059300A JP7253951B2 (ja) | 2019-03-26 | 2019-03-26 | 自然言語データ処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020160782A true JP2020160782A (ja) | 2020-10-01 |
JP7253951B2 JP7253951B2 (ja) | 2023-04-07 |
Family
ID=72643504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019059300A Active JP7253951B2 (ja) | 2019-03-26 | 2019-03-26 | 自然言語データ処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7253951B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102261710B1 (ko) * | 2020-11-04 | 2021-06-07 | (주)휴먼아이티솔루션 | 인공지능 기반의 다국어 관광 콘텐츠 관리 방법, 장치 및 컴퓨터-판독가능 기록 매체 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083987A (ja) * | 1999-08-30 | 2001-03-30 | Internatl Business Mach Corp <Ibm> | 記号挿入装置およびその方法 |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
WO2009122779A1 (ja) * | 2008-04-03 | 2009-10-08 | 日本電気株式会社 | テキストデータ処理装置、方法、プログラムが格納された記録媒体 |
-
2019
- 2019-03-26 JP JP2019059300A patent/JP7253951B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083987A (ja) * | 1999-08-30 | 2001-03-30 | Internatl Business Mach Corp <Ibm> | 記号挿入装置およびその方法 |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
WO2009122779A1 (ja) * | 2008-04-03 | 2009-10-08 | 日本電気株式会社 | テキストデータ処理装置、方法、プログラムが格納された記録媒体 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102261710B1 (ko) * | 2020-11-04 | 2021-06-07 | (주)휴먼아이티솔루션 | 인공지능 기반의 다국어 관광 콘텐츠 관리 방법, 장치 및 컴퓨터-판독가능 기록 매체 |
Also Published As
Publication number | Publication date |
---|---|
JP7253951B2 (ja) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Silberztein | Formalizing natural languages: The NooJ approach | |
US5610812A (en) | Contextual tagger utilizing deterministic finite state transducer | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
US20040006466A1 (en) | System and method for automatic detection of collocation mistakes in documents | |
US20140350913A1 (en) | Translation device and method | |
EP1349079A1 (en) | Machine translation | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US20120296633A1 (en) | Syntax-based augmentation of statistical machine translation phrase tables | |
KR102189894B1 (ko) | 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템 | |
KR100911834B1 (ko) | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 | |
Nicolai et al. | Leveraging Inflection Tables for Stemming and Lemmatization. | |
JP2020080025A (ja) | 質問応答データ生成装置および質問応答データ生成方法 | |
JP2020190970A (ja) | 文書処理装置およびその方法、プログラム | |
KR20210042845A (ko) | 외국어 문장 빈칸 추론 문제 자동 생성 방법 및 시스템 | |
US7328404B2 (en) | Method for predicting the readings of japanese ideographs | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
JP7253951B2 (ja) | 自然言語データ処理装置およびプログラム | |
Gerlach | Improving statistical machine translation of informal language: a rule-based pre-editing approach for French forums | |
JP2007157123A (ja) | 改善された中国語−英語翻訳ツール | |
Recski | Hungarian noun phrase extraction using rule-based and hybrid methods | |
JP4431759B2 (ja) | 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム | |
Alkahtani | Building and verifying parallel corpora between Arabic and English | |
CN109960812B (zh) | 语言处理方法及设备 | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
Rozovskaya | Automatic Classification of Russian Learner Errors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7253951 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |