JP5650440B2 - 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム - Google Patents
素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム Download PDFInfo
- Publication number
- JP5650440B2 JP5650440B2 JP2010117237A JP2010117237A JP5650440B2 JP 5650440 B2 JP5650440 B2 JP 5650440B2 JP 2010117237 A JP2010117237 A JP 2010117237A JP 2010117237 A JP2010117237 A JP 2010117237A JP 5650440 B2 JP5650440 B2 JP 5650440B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- feature
- weight
- features
- conversion results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
共通素性抽出部13は、マルチタスク学習部12で生成されたI個のD次元の素性重みベクトルwv iから構成されるI×D次元の行列Wが入力され、すべてのi行についてwi,jが0でないj列(すなわち、すべてのfiについて共通して作用する素性)を抽出し、その抽出した列番号(又はそれに対応する素性)の集合hcを出力する(S3)。
以上のように本発明の素性重み学習装置10は、複数の学習用データを用い、任意に設定した複数の素性それぞれに対する重みを学習用データごとにマルチタスクで学習する。そして、その重みの値を指標として、当該複数の素性のうち各学習用データに共通して作用している素性を抽出し、この抽出した素性に絞り込んで素性重みを生成する。このように素性を絞り込んで素性重みを生成し、スコアリングやリランキングを実行することで、予め定められた複数の素性の中に疎な素性が含まれていてもスコアリングやリランキングに有効な素性だけが自動的に抽出されるため、精度の高いスコアリングやリランキングを行うことができる。
統計翻訳手法の一つである階層的な句に基づく手法によって得られたN-best翻訳候補(N=100)をリランキングする実験を行った。素性重みベクトルwvの学習には式(2)を用い、リランカの素性としては非特許文献2で使われているものを用いた。本実験は、医療分野の文章の日本語から英語への翻訳に関するものである。リランキングに用いるN-bestデータは、公知の統計的機械翻訳システムにより17,000文の日英対訳データで学習した翻訳モデルを800,000文で学習した言語モデルを用いて生成した。翻訳モデルを学習したデータに含まれない1,500文のうち、500文で素性重みベクトルwvを学習し、残りの1,000文を2つに分けて、クロスバリデーションを行った。すなわち、一方の500文で学習に用いるλなどのハイパー・パラメータを調整し、もう一方の500文でテストを行うということを交互に行った。翻訳精度はBLEUで測定した(この値が大きいほど良い翻訳であることを意味する)。
Claims (7)
- 入力に対する尤もらしい上位N個の変換結果に、複数の所定の素性に基づきスコアを付与するために用いる前記所定の素性ごとに設定する重みを、複数の学習用データを用いて学習することにより生成する素性重み学習装置であって、
前記学習用データは、学習用の入力に対する尤もらしい上位N個の変換結果であり、
任意に設定した複数の素性それぞれに対する重みを学習用データごとに別々のタスクとしてマルチタスク学習法により学習し、その重みの値を指標として、当該複数の素性のうち各学習用データに共通して作用している素性を前記所定の素性として抽出し、
その抽出した素性に対応する重みを学習する
ことを特徴とする素性重み学習装置。 - 入力に対する尤もらしい上位N個の変換結果に、複数の所定の素性に基づきスコアを付与するN-bestスコアリング装置であって、
各候補にスコアを付与するために用いる前記所定の素性ごとに設定する重みを、請求項1に記載の素性重み学習装置により生成する
ことを特徴とするN-bestスコアリング装置。 - 入力に対する尤もらしい上位N個の変換結果を、各候補に付されたスコアにより再順位付けするN-bestリランキング装置であって、
前記スコアを、請求項2に記載のN-bestスコアリング装置により生成する
ことを特徴とするN-bestリランキング装置。 - 入力に対する尤もらしい上位N個の変換結果に、複数の所定の素性に基づきスコアを付与するために用いる前記所定の素性ごとに設定する重みを、複数の学習用データを用いて学習することにより生成する素性重み学習方法であって、
前記学習用データは、学習用の入力に対する尤もらしい上位N個の変換結果であり、
マルチタスク学習部が、任意に設定した複数の素性それぞれに対する重みを学習用データごとに別々のタスクとしてマルチタスク学習法により学習し、共通素性抽出部が、その重みの値を指標として、当該複数の素性のうち各学習用データに共通して作用している素性を前記所定の素性として抽出し、
学習部が、その抽出した素性に対する重みを学習する
ことを特徴とする素性重み学習方法。 - 入力に対する尤もらしい上位N個の変換結果に、複数の所定の素性に基づきスコアを付与するN-bestスコアリング方法であって、
N-bestスコアリング装置が、各候補にスコアを付与するために用いる前記所定の素性ごとに設定する重みを、請求項4に記載の素性重み学習方法により生成する
ことを特徴とするN-bestスコアリング方法。 - 入力に対する尤もらしい上位N個の変換結果を、各候補に付されたスコアにより再順位付けするN-bestリランキング方法であって、
N-bestリランキング装置が、前記スコアを、請求項5に記載のN-bestスコアリング方法により生成する
ことを特徴とするN-bestリランキング方法。 - 請求項1乃至3のいずれかに記載の装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010117237A JP5650440B2 (ja) | 2010-05-21 | 2010-05-21 | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010117237A JP5650440B2 (ja) | 2010-05-21 | 2010-05-21 | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011243147A JP2011243147A (ja) | 2011-12-01 |
JP5650440B2 true JP5650440B2 (ja) | 2015-01-07 |
Family
ID=45409699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010117237A Active JP5650440B2 (ja) | 2010-05-21 | 2010-05-21 | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5650440B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5752060B2 (ja) | 2012-01-19 | 2015-07-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、大語彙連続音声認識方法及びプログラム |
JP5985344B2 (ja) * | 2012-10-10 | 2016-09-06 | 日本電信電話株式会社 | システムパラメータ最適化装置、方法、及びプログラム |
US10504040B2 (en) * | 2015-06-02 | 2019-12-10 | Nec Corporation | Annealed sparsity via adaptive and dynamic shrinking |
JP6911785B2 (ja) * | 2018-02-02 | 2021-07-28 | 日本電信電話株式会社 | 判定装置、判定方法及び判定プログラム |
JP6849621B2 (ja) * | 2018-02-02 | 2021-03-24 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
WO2021024491A1 (ja) * | 2019-08-08 | 2021-02-11 | 日本電信電話株式会社 | 判定装置、学習装置、判定方法及び判定プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5180522B2 (ja) * | 2007-06-20 | 2013-04-10 | 日本電信電話株式会社 | 機械翻訳装置、機械翻訳方法、およびそのプログラムならびに記録媒体 |
US20100004919A1 (en) * | 2008-07-03 | 2010-01-07 | Google Inc. | Optimizing parameters for machine translation |
-
2010
- 2010-05-21 JP JP2010117237A patent/JP5650440B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011243147A (ja) | 2011-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP5650440B2 (ja) | 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム | |
US20200364407A1 (en) | Method and server for text classification using multi-task learning | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US20130036076A1 (en) | Method for keyword extraction | |
JP2015515674A (ja) | テキストの意味的処理のための方法、装置および製品 | |
CN111191002A (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
JP4711761B2 (ja) | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN110879834A (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
Sifa et al. | Towards contradiction detection in german: a translation-driven approach | |
CN104317882A (zh) | 一种决策级中文分词融合方法 | |
AU2018226420B2 (en) | Voice assisted intelligent searching in mobile documents | |
Gasmi | Medical text classification based on an optimized machine learning and external semantic resource | |
KR102347031B1 (ko) | 다중작업 학습을 이용한 텍스트 분류 방법 및 서버 | |
Dinov et al. | Natural language processing/text mining | |
Patel et al. | Personality analysis using social media | |
Joshi et al. | Word embeddings in low resource Gujarati language | |
M’sik et al. | Topic modeling coherence: A comparative study between lda and nmf models using covid’19 corpus | |
Laatar et al. | Word embedding for Arabic word sense disambiguation to create a historical dictionary for Arabic language | |
CN114722818A (zh) | 一种基于对抗迁移学习的命名实体识别模型 | |
Rachmawati et al. | Transfer learning for closed domain question answering in COVID-19 | |
Phyu et al. | A study on a joint deep learning model for myanmar text classification | |
Testas | Natural Language Processing with Pandas, Scikit-Learn, and PySpark |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5650440 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |