JP5553779B2 - 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム - Google Patents
形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム Download PDFInfo
- Publication number
- JP5553779B2 JP5553779B2 JP2011002940A JP2011002940A JP5553779B2 JP 5553779 B2 JP5553779 B2 JP 5553779B2 JP 2011002940 A JP2011002940 A JP 2011002940A JP 2011002940 A JP2011002940 A JP 2011002940A JP 5553779 B2 JP5553779 B2 JP 5553779B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- morpheme
- conversion
- pair
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図1に、この発明の形態素変換学習装置100の機能構成例を示す。その動作フローを図2に示す。形態素変換学習装置100は、第1形態素解析器10と、第2形態素解析器11と、フレーズアライメント部12と、フレーズアライメント済み訓練コーパス13と、フレーズテーブル作成部14と、未知語テーブル作成部15と、パラメータ推定部16と、フレーズテーブル17と、未知語テーブル18と、パラメータテーブル19と、を具備する。形態素変換学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
図11に、この発明の形態素列変換装置200の機能構成例を示す。形態素列変換装置200は、フレーズテーブル17と、未知語テーブル18と、パラメータテーブル19と、ラティス構造構築部160と、最尤フレーズ対列探索部161と、出力形態素列作成部201と、を具備する。
Claims (6)
- 訓練コーパスを一文ずつ形態素解析した第1形態素解析結果と、上記形態素解析と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析した第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を集約したフレーズテーブルと、
上記正解フレーズ対列から、変換元、変換先がともに一形態素であるフレーズ対を抽出してそのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語フレーズ対を記録した未知語テーブルと、
上記正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したパラメータテーブルと、
変換元形態素列を入力形態素列とし当該入力形態素列に対して、上記フレーズテーブルと上記未知語テーブルを参照して上記入力形態素列に対応するフレーズ対を取得してフレーズラティスを構築するラティス構造構築部と、
上記フレーズラティスの最尤フレーズ対列を上記パラメータテーブルを参照して探索する最尤フレーズ対探索部と、
上記最尤フレーズ対列から変換先形態素を取り出して出力する出力形態素列作成部と、
を具備し、
上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
上記ラティス構造構築部は、上記入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するものであることを特徴とする形態素列変換装置。 - 訓練コーパスを一文ずつ形態素解析して第1の形態素解析結果を出力する第1形態素解析器と、
上記第1形態素解析器と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析して第2形態素結果を出力する第2形態素解析器と、
上記第1形態素解析結果と上記第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を生成するフレーズアライメント部と、
上記正解フレーズ対列を記録するフレーズアライメント済み訓練コーパスと、
上記フレーズアライメント済み訓練コーパスを参照して対応付けられた上記第1形態素解析結果と上記第2形態素解析結果とを集約してフレーズテーブルを作成するフレーズテーブル作成部と、
上記フレーズアライメント済み訓練コーパスを参照して、変換元、変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語テーブルを作成する未知語テーブル作成部と、
上記フレーズテーブルと上記未知語テーブルを参照して上記正解フレーズ対列を正解とした識別学習を行い素性に対する重みパラメータを推定してパラメータテーブルを作成するパラメータ推定部と、
を具備し、
上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
上記パラメータ推定部は、入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築するラティス構造構築部を含むことを特徴とする形態素変換学習装置。 - ラティス構造構築部が、入力形態素列に対して、訓練コーパスを一文ずつ形態素解析した第1形態素解析結果と、上記形態素解析と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析した第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を集約したフレーズテーブルと、上記正解フレーズ対列から変換元、変換先がともに一形態素であるフレーズ対を抽出してそのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語フレーズ対を記録した未知語テーブルを、参照して変換元形態素列に対応するフレーズ対を取得してフレーズラティスを構築するラティス構造構築過程と、
最尤フレーズ対列探索部が、上記フレーズラティスの最尤フレーズ対列を上記正解フレーズ対列を正解として識別学習を行い素性に対する重みをパラメータとして記録したパラメータテーブルを参照して探索する最尤フレーズ対列探索過程と、
出力形態素列作成部が、上記最尤フレーズ対から変換先形態素を取り出して出力する出力形態素列作成過程と、
を備え、
上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
上記ラティス構造構築過程は、上記入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築する過程であることを特徴とする形態素列変換方法。 - 第1形態素解析器が、訓練コーパスを一文ずつ形態素解析して第1の形態素解析結果を出力する第1形態素解析過程と、
第2形態素解析器が、上記第1形態素解析過程と異なる品詞体系に基づいて上記訓練コーパスを一文ずつ形態素解析して第2形態素結果を出力する第2形態素解析過程と、
フレーズアライメント部が、上記第1形態素解析結果と上記第2形態素解析結果の表記が一致するところをフレーズとして区切り、両者のフレーズを対応させた正解フレーズ対列を生成し、フレーズアライメント済み訓練コーパスを作成するフレーズアライメント過程と、
フレーズテーブル作成部が、上記フレーズアライメント済み訓練コーパスを参照して対応付けられた上記第1形態素解析結果と上記第2形態素解析結果とを集約してフレーズテーブルを作成するフレーズテーブル作成過程と、
未知語テーブル作成部が、上記フレーズアライメント済み訓練コーパスを参照して、変換元、変換先がともに一形態素であるフレーズ対を抽出し、そのフレーズ対の表記を特定の文字列に置換して品詞同士を対応付けた未知語テーブルを作成する未知語テーブル作成過程と、
パラメータ推定部が、上記フレーズテーブルと上記未知語テーブルを参照して上記正解フレーズ対列を正解とした識別学習を行い素性に対する重みパラメータを推定してパラメータテーブルを作成するパラメータ推定過程と、
を備え、
上記素性は、変換元フレーズを変換先フレーズに対応づける二値素性と、変換先形態素列の二値素性を含み、
上記パラメータ推定過程は、入力形態素列中に上記フレーズテーブルに含まれない入力形態素があった場合に、上記未知語テーブルから読み出した表記部分が特定の文字列に置換されたフレーズ対のその特定文字列に変換元の表記を代入して新たなフレーズ対を作成し、その新たなフレーズ対をフレーズラティスに挿入してラティス構造を構築する過程を含むものであることを特徴とする形態素変換学習方法。 - 請求項1に記載した形態素列変換装置としてコンピュータを機能させるためのプログラム。
- 請求項2に記載した形態素変換学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011002940A JP5553779B2 (ja) | 2011-01-11 | 2011-01-11 | 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011002940A JP5553779B2 (ja) | 2011-01-11 | 2011-01-11 | 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012146059A JP2012146059A (ja) | 2012-08-02 |
JP5553779B2 true JP5553779B2 (ja) | 2014-07-16 |
Family
ID=46789573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011002940A Active JP5553779B2 (ja) | 2011-01-11 | 2011-01-11 | 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5553779B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123511A (ja) * | 2000-10-13 | 2002-04-26 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 形態素変換規則生成装置及び形態素列変換装置 |
JP5377889B2 (ja) * | 2008-06-05 | 2013-12-25 | 日本放送協会 | 言語処理装置およびプログラム |
-
2011
- 2011-01-11 JP JP2011002940A patent/JP5553779B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012146059A (ja) | 2012-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4058057B2 (ja) | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム | |
US8713037B2 (en) | Translation system adapted for query translation via a reranking framework | |
US8543563B1 (en) | Domain adaptation for query translation | |
KR101762866B1 (ko) | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 | |
WO2003056450A1 (fr) | Procede et appareil d'analyse syntaxique | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
JP2006268375A (ja) | 翻訳メモリシステム | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP5656353B2 (ja) | マルチリンガル・テキスト・リソースのアクセスを制御するための方法および装置 | |
US20140156258A1 (en) | Foreign language writing support apparatus and method | |
JP2007241764A (ja) | 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体 | |
KR101709693B1 (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
JP2016164707A (ja) | 自動翻訳装置及び翻訳用モデル学習装置 | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
JP5193798B2 (ja) | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
WO2020012813A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP5553779B2 (ja) | 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
JP5150277B2 (ja) | 言語処理装置、言語処理方法および言語処理プログラム並びに言語処理プログラムを記録した記録媒体 | |
Tambouratzis et al. | Machine Translation with Minimal Reliance on Parallel Resources | |
JP2008140204A (ja) | データ検索システム及びプログラム | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
KR20200041113A (ko) | 외국어 문장을 한국어로 번역하는 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140520 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140527 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5553779 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |