JP2010267200A - 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム - Google Patents
合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム Download PDFInfo
- Publication number
- JP2010267200A JP2010267200A JP2009119886A JP2009119886A JP2010267200A JP 2010267200 A JP2010267200 A JP 2010267200A JP 2009119886 A JP2009119886 A JP 2009119886A JP 2009119886 A JP2009119886 A JP 2009119886A JP 2010267200 A JP2010267200 A JP 2010267200A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- text
- word
- model
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】意味対応入替部2により、意味対応テキスト組セット1の意味的な対応関係を入れ替えた意味対応入替テキスト組セット1’を作成し、翻訳確率計算部3より、意味対応テキスト組セット1及び意味対応入替テキスト組セット1’中における単語から単語への翻訳確率をそれぞれ計算して対応非入替翻訳モデル4及び対応入替翻訳モデル5を作成し、翻訳確率合成部6により、翻訳モデル4及び5から意味対応テキスト組セット1中の各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデル7を作成し、この合成翻訳モデル7を用いて、入力されたテキストの集合をクラスタリングする。
【選択図】図3
Description
2:意味対応入替部
3:翻訳確率計算部
4:対応非入替翻訳モデル(記憶部)
5:対応入替翻訳モデル(記憶部)
6:翻訳確率合成部
7:合成翻訳モデル(記憶部)
8:テキスト群入力部
9:言語モデル計算部
10:言語モデル(記憶部)
11:言語モデル・翻訳モデル統合部
12:翻訳モデル統合言語モデル(記憶部)
13:類似度計算部
14:類似度行列(記憶部)
15:クラスタリング部
16:テキスト群出力部
Claims (12)
- 学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成する意味対応入替部と、
前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成する翻訳確率計算部と、
前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成する翻訳確率合成部とを備えた
ことを特徴とする合成翻訳モデル作成装置。 - 前記翻訳確率合成部は、
前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデルにおける単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデルにおける前記翻訳先テキストの単語と同一の単語から前記意味対応テキスト組セット中の翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする
ことを特徴とする請求項1に記載の合成翻訳モデル作成装置。 - 入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするテキストクラスタリング装置であって、
学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成する意味対応入替部と、
前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成する翻訳確率計算部と、
前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成する翻訳確率合成部と、
入力された形態素解析済みのテキストの集合を受け付けるテキスト群入力部と、
前記入力されたテキスト毎に言語モデルを作成する言語モデル計算部と、
前記テキスト毎の言語モデルと前記合成翻訳モデルとを統合することにより、前記テキスト毎に翻訳モデル統合言語モデルを作成する言語モデル・翻訳モデル統合部と、
前記テキスト毎の前記翻訳モデル統合言語モデル間の類似度を計算することにより、前記入力されたテキスト間の類似度を計算する類似度計算部と、
前記テキスト間の類似度に基づいて前記入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするクラスタリング部とを備えた
ことを特徴とするテキストクラスタリング装置。 - 前記翻訳確率合成部は、
前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデルにおける単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデルにおける前記翻訳先テキストの単語と同一の単語から前記意味対応テキスト組セット中の翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする
ことを特徴とする請求項3に記載のテキストクラスタリング装置。 - 前記言語モデル・翻訳モデル統合部は、
前記言語モデル計算部で計算された言語モデルが単語を生起する確率と、前記翻訳確率合成部で計算された合成翻訳モデルにおける前記単語から別の単語への翻訳確率とを足し合わせた値を、前記翻訳モデル統合言語モデルが前記単語を生成する確率とする
ことを特徴とする請求項3または4に記載のテキストクラスタリング装置。 - 意味対応入替部が、学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成するステップと、
翻訳確率計算部が、前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成するステップと、
翻訳確率合成部が、前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成するステップとを含む
ことを特徴とする合成翻訳モデル作成方法。 - 前記翻訳確率合成ステップは、
前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデルにおける単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデルにおける前記翻訳先テキストの単語と同一の単語から前記意味対応テキスト組セット中の翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする
ことを特徴とする請求項6に記載の合成翻訳モデル作成方法。 - 入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするテキストクラスタリング方法であって、
意味対応入替部が、学習用に予め与えられた、意味的な対応関係を有するテキストの組を少なくとも1組含む意味対応テキスト組セットをコピーし、それぞれの組の意味的な対応関係を入れ替えた意味対応入替テキスト組セットを作成するステップと、
翻訳確率計算部が、前記意味対応テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応非入替翻訳モデルを作成するとともに、前記意味対応入替テキスト組セット中の翻訳元テキストに含まれる単語毎に前記意味対応入替テキスト組セット中の翻訳先テキストに含まれる各単語への翻訳確率を計算して対応入替翻訳モデルを作成するステップと、
翻訳確率合成部が、前記対応非入替翻訳モデル及び前記対応入替翻訳モデルを組合わせることにより、前記意味対応テキスト組セット中の翻訳元テキストに含まれる各単語が別の単語に翻訳される翻訳確率を計算して合成翻訳モデルを作成するステップと、
テキスト群入力部が、入力された形態素解析済みのテキストの集合を受け付けるステップと、
言語モデル計算部が、前記入力されたテキスト毎に言語モデルを作成するステップと、
言語モデル・翻訳モデル統合部が、前記テキスト毎の言語モデルと前記合成翻訳モデルとを統合することにより、前記テキスト毎に翻訳モデル統合言語モデルを作成するステップと、
類似度計算部が、前記テキスト毎の前記翻訳モデル統合言語モデル間の類似度を計算することにより、前記入力されたテキスト間の類似度を計算するステップと、
クラスタリング部が、前記テキスト間の類似度に基づいて前記入力されたテキストの集合を、類似する内容を含むテキストの部分集合にクラスタリングするステップとを含む
ことを特徴とするテキストクラスタリング方法。 - 前記翻訳確率合成ステップは、
前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語について、前記意味対応テキスト組セット中の前記翻訳先テキストの単語毎に、前記対応非入替翻訳モデルにおける単語から前記翻訳先テキストの単語への翻訳確率と前記対応入替翻訳モデルにおける前記翻訳先テキストの単語と同一の単語から前記意味対応テキスト組セット中の翻訳元テキストの単語への翻訳確率とを掛け合わせた値の総和を求め、これを前記意味対応テキスト組セット中の前記翻訳元テキストに含まれる各単語が別の単語へ翻訳される翻訳確率とする
ことを特徴とする請求項8に記載のテキストクラスタリング方法。 - 前記言語モデル・翻訳モデル統合ステップは、
前記言語モデル計算部で計算された言語モデルが単語を生起する確率と、前記翻訳確率合成部で計算された合成翻訳モデルにおける前記単語から別の単語への翻訳確率とを足し合わせた値を、前記翻訳モデル統合言語モデルが前記単語を生成する確率とする
ことを特徴とする請求項8または9に記載のテキストクラスタリング方法。 - コンピュータを、請求項1または2に記載の合成翻訳モデル作成装置の各手段として機能させるためのプログラム。
- コンピュータを、請求項3乃至5のいずれかに記載のテキストクラスタリング装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009119886A JP2010267200A (ja) | 2009-05-18 | 2009-05-18 | 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009119886A JP2010267200A (ja) | 2009-05-18 | 2009-05-18 | 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010267200A true JP2010267200A (ja) | 2010-11-25 |
Family
ID=43364095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009119886A Pending JP2010267200A (ja) | 2009-05-18 | 2009-05-18 | 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010267200A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020135457A (ja) * | 2019-02-20 | 2020-08-31 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
CN113032559A (zh) * | 2021-03-15 | 2021-06-25 | 新疆大学 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
-
2009
- 2009-05-18 JP JP2009119886A patent/JP2010267200A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020135457A (ja) * | 2019-02-20 | 2020-08-31 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
JP7103264B2 (ja) | 2019-02-20 | 2022-07-20 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
CN113032559A (zh) * | 2021-03-15 | 2021-06-25 | 新疆大学 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
CN113032559B (zh) * | 2021-03-15 | 2023-04-28 | 新疆大学 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cer et al. | Parsing to Stanford Dependencies: Trade-offs between Speed and Accuracy. | |
Zeroual et al. | A new Quranic Corpus rich in morphosyntactical information | |
Schwartz et al. | Neural polysynthetic language modelling | |
Kouremenos et al. | A novel rule based machine translation scheme from Greek to Greek Sign Language: Production of different types of large corpora and Language Models evaluation | |
Yuan | Grammatical error correction in non-native English | |
García-Martínez et al. | Neural machine translation by generating multiple linguistic factors | |
CN113515638B (zh) | 面向学者聚类的研究兴趣挖掘方法、装置和存储介质 | |
Bella et al. | A database and visualization of the similarity of contemporary lexicons | |
Şenel et al. | Measuring cross-lingual semantic similarity across European languages | |
Liu et al. | Paraphrastic language models | |
Jamro | Sindhi language processing: A survey | |
Stahlberg et al. | Word segmentation and pronunciation extraction from phoneme sequences through cross-lingual word-to-phoneme alignment | |
JP2010267200A (ja) | 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム | |
Arora et al. | Jambu: A historical linguistic database for South Asian languages | |
Janfada et al. | A review of the most important studies on automated text simplification evaluation metrics | |
Kirsch et al. | Noise reduction in distant supervision for relation extraction using probabilistic soft logic | |
Neubarth et al. | A hybrid approach to statistical machine translation between standard and dialectal varieties | |
Mahlaza | Foundations for reusable and maintainable surface realisers for isiXhosa and isiZulu | |
JP5302784B2 (ja) | 機械翻訳方法、及びシステム | |
Tarish et al. | Text correction algorithms for correct grammar and lex-ical errors in the English language | |
Gibbon et al. | Spoken Language Characterization | |
Babhulgaonkar et al. | Experimenting with factored language model and generalized back-off for Hindi | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
Baumann et al. | Correlates in the evolution of phonotactic diversity in English: Linguistic structure, demographics, and network characteristics | |
Boito | Models and resources for attention-based unsupervised word segmentation: an application to computational language documentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |