JP2011243147A - 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム - Google Patents
素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム Download PDFInfo
- Publication number
- JP2011243147A JP2011243147A JP2010117237A JP2010117237A JP2011243147A JP 2011243147 A JP2011243147 A JP 2011243147A JP 2010117237 A JP2010117237 A JP 2010117237A JP 2010117237 A JP2010117237 A JP 2010117237A JP 2011243147 A JP2011243147 A JP 2011243147A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- learning
- features
- weight
- learning data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】複数の学習用データを用い、任意に設定した複数の素性それぞれに対する重みを学習用データごとに別々のタスクとしてマルチタスク学習法により学習し、その重みの値を指標として、当該複数の素性のうち各学習用データに共通して作用している素性を抽出し、この抽出した素性に絞り込んで素性重みを学習してスコアリングやリランキングを実行する。
【選択図】図1
Description
共通素性抽出部13は、マルチタスク学習部12で生成されたI個のD次元の素性重みベクトルwv iから構成されるI×D次元の行列Wが入力され、すべてのi行についてwi,jが0でないj列(すなわち、すべてのfiについて共通して作用する素性)を抽出し、その抽出した列番号(又はそれに対応する素性)の集合hcを出力する(S3)。
以上のように本発明の素性重み学習装置10は、複数の学習用データを用い、任意に設定した複数の素性それぞれに対する重みを学習用データごとにマルチタスクで学習する。そして、その重みの値を指標として、当該複数の素性のうち各学習用データに共通して作用している素性を抽出し、この抽出した素性に絞り込んで素性重みを生成する。このように素性を絞り込んで素性重みを生成し、スコアリングやリランキングを実行することで、予め定められた複数の素性の中に疎な素性が含まれていてもスコアリングやリランキングに有効な素性だけが自動的に抽出されるため、精度の高いスコアリングやリランキングを行うことができる。
統計翻訳手法の一つである階層的な句に基づく手法によって得られたN-best翻訳候補(N=100)をリランキングする実験を行った。素性重みベクトルwvの学習には式(2)を用い、リランカの素性としては非特許文献2で使われているものを用いた。本実験は、医療分野の文章の日本語から英語への翻訳に関するものである。リランキングに用いるN-bestデータは、公知の統計的機械翻訳システムにより17,000文の日英対訳データで学習した翻訳モデルを800,000文で学習した言語モデルを用いて生成した。翻訳モデルを学習したデータに含まれない1,500文のうち、500文で素性重みベクトルwvを学習し、残りの1,000文を2つに分けて、クロスバリデーションを行った。すなわち、一方の500文で学習に用いるλなどのハイパー・パラメータを調整し、もう一方の500文でテストを行うということを交互に行った。翻訳精度はBLEUで測定した(この値が大きいほど良い翻訳であることを意味する)。
Claims (7)
- 入力に対する尤もらしい上位N個の変換結果に、複数の所定の素性に基づきスコアを付与するために用いる前記所定の素性ごとに設定する重みを、複数の学習用データを用いて学習することにより生成する素性重み学習装置であって、
前記学習用データは、学習用の入力に対する尤もらしい上位N個の変換結果であり、
任意に設定した複数の素性それぞれに対する重みを学習用データごとに別々のタスクとしてマルチタスク学習法により学習し、その重みの値を指標として、当該複数の素性のうち各学習用データに共通して作用している素性を前記所定の素性として抽出し、
その抽出した素性に対応する重みを学習する
ことを特徴とする素性重み学習装置。 - 入力に対する尤もらしい上位N個の変換結果に、複数の所定の素性に基づきスコアを付与するN-bestスコアリング装置であって、
各候補にスコアを付与するために用いる前記所定の素性ごとに設定する重みを、請求項1に記載の素性重み学習装置により生成する
ことを特徴とするN-bestスコアリング装置。 - 入力に対する尤もらしい上位N個の変換結果を、各候補に付されたスコアにより再順位付けするN-bestリランキング装置であって、
前記スコアを、請求項2に記載のN-bestスコアリング装置により生成する
ことを特徴とするN-bestリランキング装置。 - 入力に対する尤もらしい上位N個の変換結果に、複数の所定の素性に基づきスコアを付与するために用いる前記所定の素性ごとに設定する重みを、複数の学習用データを用いて学習することにより生成する素性重み学習方法であって、
前記学習用データは、学習用の入力に対する尤もらしい上位N個の変換結果であり、
任意に設定した複数の素性それぞれに対する重みを学習用データごとに別々のタスクとしてマルチタスク学習法により学習し、その重みの値を指標として、当該複数の素性のうち各学習用データに共通して作用している素性を前記所定の素性として抽出し、
その抽出した素性に対する重みを学習する
ことを特徴とする素性重み学習方法。 - 入力に対する尤もらしい上位N個の変換結果に、複数の所定の素性に基づきスコアを付与するN-bestスコアリング方法であって、
各候補にスコアを付与するために用いる前記所定の素性ごとに設定する重みを、請求項4に記載の素性重み学習方法により生成する
ことを特徴とするN-bestスコアリング方法。 - 入力に対する尤もらしい上位N個の変換結果を、各候補に付されたスコアにより再順位付けするN-bestリランキング方法であって、
前記スコアを、請求項5に記載のN-bestスコアリング方法により生成する
ことを特徴とするN-bestリランキング方法。 - 請求項1乃至3のいずれかに記載の装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010117237A JP5650440B2 (ja) | 2010-05-21 | 2010-05-21 | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010117237A JP5650440B2 (ja) | 2010-05-21 | 2010-05-21 | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011243147A true JP2011243147A (ja) | 2011-12-01 |
JP5650440B2 JP5650440B2 (ja) | 2015-01-07 |
Family
ID=45409699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010117237A Active JP5650440B2 (ja) | 2010-05-21 | 2010-05-21 | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5650440B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013148697A (ja) * | 2012-01-19 | 2013-08-01 | Internatl Business Mach Corp <Ibm> | 情報処理装置、大語彙連続音声認識方法及びプログラム |
JP2014078138A (ja) * | 2012-10-10 | 2014-05-01 | Nippon Telegr & Teleph Corp <Ntt> | システムパラメータ最適化装置、方法、及びプログラム |
JP2018522338A (ja) * | 2015-06-02 | 2018-08-09 | エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. | 適応及び動的シュリンキングを介したアニールスパース性 |
WO2019151503A1 (ja) * | 2018-02-02 | 2019-08-08 | 日本電信電話株式会社 | 判定装置、判定方法及び判定プログラム |
WO2019151506A1 (ja) * | 2018-02-02 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
WO2021024491A1 (ja) * | 2019-08-08 | 2021-02-11 | 日本電信電話株式会社 | 判定装置、学習装置、判定方法及び判定プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003642A (ja) * | 2007-06-20 | 2009-01-08 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 |
WO2010003117A2 (en) * | 2008-07-03 | 2010-01-07 | Google Inc. | Optimizing parameters for machine translation |
-
2010
- 2010-05-21 JP JP2010117237A patent/JP5650440B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009003642A (ja) * | 2007-06-20 | 2009-01-08 | Nippon Telegr & Teleph Corp <Ntt> | 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体 |
WO2010003117A2 (en) * | 2008-07-03 | 2010-01-07 | Google Inc. | Optimizing parameters for machine translation |
Non-Patent Citations (5)
Title |
---|
CSNC201100879096; 谷垣宏一 外2名: '最大エントロピーモデルによる発話意図の同定と素性選択アルゴリズムの効率化' 日本音響学会研究発表会議講演論文集 秋I , 20011002, p.187-188, 社団法人日本音響学会 * |
CSNG201000459178; 岡野原 大輔 外1名: '行列分解による多クラス分類とその応用' 言語処理学会第16回年次大会発表論文集 , 20100308, p.748-751, 言語処理学会 * |
JPN6013049423; 谷垣宏一 外2名: '最大エントロピーモデルによる発話意図の同定と素性選択アルゴリズムの効率化' 日本音響学会研究発表会議講演論文集 秋I , 20011002, p.187-188, 社団法人日本音響学会 * |
JPN6013049424; 岡野原 大輔 外1名: '行列分解による多クラス分類とその応用' 言語処理学会第16回年次大会発表論文集 , 20100308, p.748-751, 言語処理学会 * |
JPN7013003691; Tony Jebara: 'Multi-Task Feature and Kernel Selection for SVMs' Proceeding of the 21st International Conference on Machine Learning,Banff Canada,2004 , 2004 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013148697A (ja) * | 2012-01-19 | 2013-08-01 | Internatl Business Mach Corp <Ibm> | 情報処理装置、大語彙連続音声認識方法及びプログラム |
US9165553B2 (en) | 2012-01-19 | 2015-10-20 | International Business Machines Corporation | Information processing device, large vocabulary continuous speech recognition method and program including hypothesis ranking |
JP2014078138A (ja) * | 2012-10-10 | 2014-05-01 | Nippon Telegr & Teleph Corp <Ntt> | システムパラメータ最適化装置、方法、及びプログラム |
JP2018522338A (ja) * | 2015-06-02 | 2018-08-09 | エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. | 適応及び動的シュリンキングを介したアニールスパース性 |
WO2019151503A1 (ja) * | 2018-02-02 | 2019-08-08 | 日本電信電話株式会社 | 判定装置、判定方法及び判定プログラム |
JP2019133085A (ja) * | 2018-02-02 | 2019-08-08 | 日本電信電話株式会社 | 判定装置、判定方法及び判定プログラム |
WO2019151506A1 (ja) * | 2018-02-02 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
JP2019133084A (ja) * | 2018-02-02 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
US11837222B2 (en) | 2018-02-02 | 2023-12-05 | Nippon Telegraph And Telephone Corporation | Determination device, determination method, and determination program |
WO2021024491A1 (ja) * | 2019-08-08 | 2021-02-11 | 日本電信電話株式会社 | 判定装置、学習装置、判定方法及び判定プログラム |
JPWO2021024491A1 (ja) * | 2019-08-08 | 2021-02-11 | ||
JP7192995B2 (ja) | 2019-08-08 | 2022-12-20 | 日本電信電話株式会社 | 判定装置、学習装置、判定方法及び判定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5650440B2 (ja) | 2015-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162627B (zh) | 数据增量方法、装置、计算机设备及存储介质 | |
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
US11328125B2 (en) | Method and server for text classification using multi-task learning | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US20130036076A1 (en) | Method for keyword extraction | |
JP5650440B2 (ja) | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN106777957A (zh) | 不平衡数据集上生物医学多参事件抽取的新方法 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN110879834A (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN104317882A (zh) | 一种决策级中文分词融合方法 | |
AU2018226420A1 (en) | Voice assisted intelligent searching in mobile documents | |
Kang et al. | A short texts matching method using shallow features and deep features | |
Rosu et al. | Nlp based deep learning approach for plagiarism detection | |
KR20200131736A (ko) | 다중작업 학습을 이용한 텍스트 분류 방법 및 서버 | |
Patel et al. | Personality analysis using social media | |
Joshi et al. | Word embeddings in low resource Gujarati language | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
Schirmer et al. | A new dataset for topic-based paragraph classification in genocide-related court transcripts | |
Laatar et al. | Word embedding for Arabic word sense disambiguation to create a historical dictionary for Arabic language | |
Vu et al. | Building a vietnamese sentiwordnet using vietnamese electronic dictionary and string kernel | |
Das et al. | Sentiment Analysis on Comments in Bengali Language Using Text Mining & Machine Learning Approach | |
Rachmawati et al. | Transfer learning for closed domain question answering in COVID-19 | |
Sun et al. | Generalized abbreviation prediction with negative full forms and its application on improving chinese web search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5650440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |