JP5317061B2 - 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 - Google Patents
単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 Download PDFInfo
- Publication number
- JP5317061B2 JP5317061B2 JP2009177488A JP2009177488A JP5317061B2 JP 5317061 B2 JP5317061 B2 JP 5317061B2 JP 2009177488 A JP2009177488 A JP 2009177488A JP 2009177488 A JP2009177488 A JP 2009177488A JP 5317061 B2 JP5317061 B2 JP 5317061B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- learning data
- japanese
- learning
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の第3の局面に係る記録媒体は、このコンピュータプログラムを記録したものである。
以下に説明する本実施の形態による学習方法は、以下のような考え方に基づくものである。すなわち、ある量の第1の言語の学習データ及び第2の言語の学習データが予め存在するものとする。この第1の言語の学習データを別の第2の言語の学習データに翻訳し、第2の言語の学習データに追加することができれば、第2の言語の学習データを低コストに拡張することができる。逆に、第2の言語の学習データを第1の言語に翻訳することで、第1の言語の学習データを拡張することができる。
図3は、本発明の一実施の形態に係る分類器の同時学習装置90の概略構成を示すブロック図である。図3を参照して、分類器の同時学習装置90は、英語版のWikipediaのページデータ100をそのレイアウト情報とともに記憶した記憶装置と、英語版のWikipediaのページデータ100に対応した日本語版のWikipediaのページデータ102をそのレイアウト情報とともに記憶した記憶装置と、英語版のWikipediaのページデータ100及び日本語版のWikipediaのページデータ102の文及び単語の対応関係に基づいて、公知の方法によって英語と日本語との対訳辞書(翻訳辞書114)を作成する翻訳辞書作成部112とを含む。Wikipediaのinfoboxと呼ばれるテンプレートは、文章の主題を属性とその値という組合せからなるテーブル形式で記述するものであり、本実施の形態ではこのinfoboxの性格を利用して、学習データ候補の抽出を行なっている。
上述の実施の形態は,コンピュータシステムと、当該システム上で実行されるコンピュータプログラムとによって実現可能である。図10はこれら実施の形態で用いられるコンピュータシステム550の外観を示し、図11はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例示であって、さまざまな他の構成が利用可能である。
以上に構成を説明した分類器の同時学習装置90(図3)は以下のように動作する。最初に、英語版のWikipediaのページデータ100及び日本語版のWikipediaのページデータ102をHD574などの記憶媒体に集積する。この作業は手作業でもよいし、いわゆるロボットプログラムでWikipediaのページを巡回することで集積してもよい。
2008年5月の英語版Wikipediaと、2008年6月版の日本語版Wikipediaとを用いて以下に述べるような実験を行なった。両言語について24000個の包摂関係語候補を抽出し、手作業で図3に示す初期英語学習データ、初期日本語学習データ、英語及び日本語の包摂関係語候補データとを作成し、さらに同様にしてテストデータを作成した。両言語について、これら候補の中で8000個の包摂関係にある単語対が存在した。20000個の単語対を初期トレーニングデータとし、英語分類器130及び日本語分類器140の学習に用いた。残りの単語対は、両言語についてそれぞれ等分し、一方は包摂関係語候補108及び110として用い、他方はテストデータとして用いた。
上記した実施の形態は、英語と日本語との組合せに関するものであった。しかし、自然言語処理の技術分野における技術者であれば容易に分かるように、この手法及びシステムは、任意の言語の組合せに対しても適用することができる。確率モデルの学習を行なうときの素性は、各言語の特徴に応じて適切なものを選択すればよい。
上記した実施の形態では、2言語について分類器の同時学習を行なっている。しかし本発明はそのような実施の形態には限定されない。3言語以上の何らかの意味的関係の分類器の同時学習にも容易に適用可能である。たとえば3言語の場合には、第1の言語の分類器による分類結果を用いて第2の言語の学習データの更新及び分類器の学習を行ない、第2の言語の分類器による分類結果を用いて第3の言語の学習データの更新及び分類器の学習を行ない、第3の言語の分類器による分類結果を用いて第1の言語の学習データの更新を行ない、というように巡回的に学習データの更新と分類器の学習とを行なってもよい。
114 翻訳辞書
116 日本語・英語同時学習部
130 英語分類器
132,142 学習部
134 英語学習データ記憶部
140 日本語分類器
144 日本語学習データ記憶部
150 学習データ更新部
160 日本語学習部
162 英語学習部
182,192,212,222 選択部
186 英日翻訳部
196,226 更新部
216 日英翻訳部
Claims (8)
- 第1の言語の単語の対の間の所定の意味的関係の有無を判定し、信頼度を示すスコアとともに判定結果を出力する第1の分類器と、第2の言語の単語の対の間の前記意味的関係の有無を判定し、信頼度を示すスコアとともに出力する第2の分類器とを同時に機械学習により学習させるための同時学習装置であって、
前記第1及び第2の言語の分類器の学習のための学習データを記憶するための第1及び第2の学習データ記憶手段と、
前記第1及び第2の学習データ記憶手段に追加される候補となる第1及び第2の学習データ候補をそれぞれ記憶するための第1及び第2の候補記憶手段と、
前記第1及び第2の学習データ記憶手段に記憶された学習データを用いて前記第1及び第2の分類器の学習をそれぞれ行なうための第1及び第2の学習手段と、
前記第1及び第2の分類器を用いて、前記第1及び第2の候補記憶手段に記憶された前記第1及び第2の学習データ候補をそれぞれ分類させ、分類結果とスコアとをそれぞれ出力させるための第1及び第2の分類手段と、
前記第1及び第2の候補記憶手段に記憶された前記第1及び第2の学習データ候補をそれぞれ前記第2及び第1の言語に翻訳するための第1及び第2の翻訳手段と、
前記第1及び第2の翻訳手段によりそれぞれ翻訳された後の前記第2及び前記第1の言語の学習候補とを、前記第2及び第1の分類器を用いてそれぞれ分類させ、分類結果とスコアとをそれぞれ出力させるための第3及び第4の分類手段と、
前記第1の分類手段による分類結果及びスコアと、前記第3の分類手段による分類結果及びスコアとに基づいて、前記第1の翻訳手段による翻訳結果のうち、所定の条件を充足するものを選択し、前記第1の分類手段による分類結果とともに前記第2の学習データ記憶手段に追加するための第1の更新手段と、
前記第2の分類手段による分類結果及びスコアと、前記第4の分類手段による分類結果及びスコアとに基づいて、前記第2の翻訳手段による翻訳結果のうち、所定の条件を充足するものを選択し、前記第2の分類手段による分類結果とともに前記第1の学習データ記憶手段に追加するための第2の更新手段と、
前記第1及び第2の学習手段、前記第1及び第2の分類手段、前記第1及び第2の翻訳手段、前記第3及び第4の分類手段、ならびに前記第1及び第2の更新手段による処理を、所定の終了条件が成立するまで繰返させるための繰返し制御手段とを含む、同時学習装置。 - 前記第1の更新手段は、
前記第1の翻訳手段による翻訳結果のうち、前記第1の分類手段によるスコアが所定の第1のしきい値以上の学習データに対する翻訳結果で、かつ前記第3の分類手段によるスコアが所定の第2のしきい値未満であるものを、前記第1の分類手段による分類結果とともに、前記第2の学習データ記憶手段に追加するための手段と、
前記第1の翻訳手段による翻訳結果のうち、前記第1の分類手段によるスコアが前記第1のしきい値以上の学習データに対する翻訳結果で、かつ前記第3の分類手段によるスコアが前記第2のしきい値以上であって、かつ前記第1及び第3の分類手段による分類結果が一致するものを、前記第1の分類手段による分類結果とともに、前記第2の学習データ記憶手段に追加するための手段とを含む、請求項1に記載の同時学習装置。 - 前記第2の更新手段は、
前記第2の翻訳手段による翻訳結果のうち、前記第2の分類手段によるスコアが所定の第3のしきい値以上の学習データに対する翻訳結果で、かつ前記第4の分類手段によるスコアが所定の第4のしきい値未満であるものを、前記第2の分類手段による分類結果とともに、前記第1の学習データ記憶手段に追加するための手段と、
前記第2の翻訳手段による翻訳結果のうち、前記第2の分類手段によるスコアが前記第3のしきい値以上の学習データに対する翻訳結果で、かつ前記第4の分類手段によるスコアが前記第4のしきい値以上であって、かつ前記第2及び第4の分類手段による分類結果が一致するものを、前記第2の分類手段による分類結果とともに、前記第1の学習データ記憶手段に追加するための手段とを含む、請求項2に記載の同時学習装置。 - 前記第1及び第2の分類器は、互いに同じ種類の機械学習モデルにより実現される、請求項1−請求項3のいずれかに記載の同時学習装置。
- 前記第1及び第2の分類器は、互いに異なる種類の機械学習モデルにより実現される、請求項1−請求項3のいずれかに記載の同時学習装置。
- 前記第1及び第2の言語は互いに異なる、請求項1−請求項6のいずれかに記載の同時学習装置。
- コンピュータにより実行されると、当該コンピュータを、請求項1−請求項6のいずれかに記載の同時学習装置として動作させる、コンピュータプログラム。
- 請求項7に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177488A JP5317061B2 (ja) | 2009-07-30 | 2009-07-30 | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177488A JP5317061B2 (ja) | 2009-07-30 | 2009-07-30 | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011034171A JP2011034171A (ja) | 2011-02-17 |
JP5317061B2 true JP5317061B2 (ja) | 2013-10-16 |
Family
ID=43763209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009177488A Active JP5317061B2 (ja) | 2009-07-30 | 2009-07-30 | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5317061B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5718213B2 (ja) * | 2011-11-24 | 2015-05-13 | 日本電信電話株式会社 | Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム |
JP5995219B2 (ja) * | 2013-07-26 | 2016-09-21 | 日本電信電話株式会社 | 対訳辞書生成装置、方法、及びプログラム |
KR101864361B1 (ko) * | 2014-04-08 | 2018-06-04 | 네이버 주식회사 | 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템 |
JP5737641B2 (ja) | 2014-05-24 | 2015-06-17 | 洋彰 宮崎 | 自律型思考パターン生成機 |
JP6715492B2 (ja) * | 2016-08-09 | 2020-07-01 | パナソニックIpマネジメント株式会社 | 識別制御方法及び識別制御装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4347226B2 (ja) * | 2004-05-20 | 2009-10-21 | 富士通株式会社 | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 |
-
2009
- 2009-07-30 JP JP2009177488A patent/JP5317061B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011034171A (ja) | 2011-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6643555B2 (ja) | 曖昧なエンティティワードに基づくテキスト処理方法及び装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US11030407B2 (en) | Computer system, method and program for performing multilingual named entity recognition model transfer | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
US20120262461A1 (en) | System and Method for the Normalization of Text | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US20190317986A1 (en) | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US20210397787A1 (en) | Domain-specific grammar correction system, server and method for academic text | |
JP5317061B2 (ja) | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 | |
JP2022541444A (ja) | 機械支援型エージェントにおける自然言語応答 | |
CN113407709A (zh) | 生成式文本摘要系统和方法 | |
WO2023278052A1 (en) | Automated troubleshooter | |
CN116561592B (zh) | 文本情感识别模型的训练方法和文本情感识别方法及装置 | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN111563140B (zh) | 一种意图识别方法及装置 | |
CN110263345A (zh) | 关键词提取方法、装置及存储介质 | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
US20220129784A1 (en) | Predicting topic sentiment using a machine learning model trained with observations in which the topics are masked | |
WO2020059506A1 (ja) | 学習装置、抽出装置及び学習方法 | |
JP2020123134A (ja) | 抽出方法,情報処理装置および抽出プログラム | |
JP6309852B2 (ja) | 強調位置予測装置、強調位置予測方法及びプログラム | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium | |
TWI745878B (zh) | 聊天機器人系統及聊天機器人模型訓練方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120619 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130702 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5317061 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |