JP2013073282A - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP2013073282A
JP2013073282A JP2011209938A JP2011209938A JP2013073282A JP 2013073282 A JP2013073282 A JP 2013073282A JP 2011209938 A JP2011209938 A JP 2011209938A JP 2011209938 A JP2011209938 A JP 2011209938A JP 2013073282 A JP2013073282 A JP 2013073282A
Authority
JP
Japan
Prior art keywords
text
language
phrase
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011209938A
Other languages
English (en)
Inventor
Shaoming Liu
紹明 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2011209938A priority Critical patent/JP2013073282A/ja
Priority to US13/366,040 priority patent/US20130080148A1/en
Priority to CN2012100620749A priority patent/CN103020041A/zh
Publication of JP2013073282A publication Critical patent/JP2013073282A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】第1言語および第2言語で記述されたテキストと、フレーズが第1言語で記述された場合の語の位置と、第2言語で記述された場合の語の位置と、の対応関係を示す情報と、に基づいて、第1テキストの一部の翻訳テキストを決定する情報処理装置を提供する。
【解決手段】情報処理装置100は、第1言語および第2言語のテキストを取得するテキストデータ取得部122と、フレーズが第1言語で記述された場合の語の位置と、フレーズが第2言語で記述された場合の語の位置と、の対応関係を示す情報を取得する文パターン候補検索部124と、テキストを複数のサブテキストに区切る形態素解析部123と、フレーズにおける語の配置と、テキストにおけるサブテキストの配置と、を比較する文パターンマッチング部125と、比較の結果と位置対応情報とに基づいて、翻訳テキストを決定する単語アライメント抽出部129と、を有する。
【選択図】図1

Description

本発明は、情報処理装置およびプログラムに関する。
特許文献1には、多言語コーパスにおける第1の言語と第2の言語との間の単語アライメントを、既に第1の言語および第2の言語との単語アライメントが規定される第3の言語を介して決定する発明が開示されている。特許文献2には、フレーズアライメントを、単語間翻訳確率等の統計的情報に基づいて決定する発明が開示されている。特許文献3には、第1言語と第2言語との間の対訳単語辞書における対応関係を、第3言語を介して決定する発明が開示されている。
特開2010−61643号公報 特開2008−102794号公報 特開2007−26256号公報
本発明の目的は、第1言語で記述された第1テキストと、第1テキストの内容が第2言語で記述された第2テキストと、複数の形式のフレーズのそれぞれについて、該フレーズが第1言語で記述された場合のある語の位置と、該フレーズが第2言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報と、に基づいて、第1テキストの一部であるサブテキストの翻訳テキストを決定する情報処理装置を提供することにある。
上記目的を達成するために、請求項1に記載の発明は、第1言語で記述された第1テキストと、前記第1テキストの内容が第2言語で記述された第2テキストと、を取得するテキスト取得手段と、複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合のある語の位置と、該フレーズが前記第2言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段と、前記第1テキストを複数の第1サブテキストに区切る第1サブテキスト生成手段と、前記第2テキストを複数の第2サブテキストに区切る第2サブテキスト生成手段と、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合の複数の語の配置と、前記第1テキストにおける前記複数の第1サブテキストの配置と、を比較する第1比較手段と、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第2言語で記述された場合の複数の語の配置と、前記第2テキストにおける前記複数の第2サブテキストの配置と、を比較する第2比較手段と、前記第1比較手段による比較の結果と、前記第2比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記複数の第1サブテキストの少なくとも1つについて、前記複数の第2サブテキストの1つを、該第1サブテキストの前記第2言語による翻訳テキストと決定する翻訳テキスト決定手段と、を有することを特徴とする情報処理装置である。
また、請求項2に記載の発明は、請求項1に記載の情報処理装置であって、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合の複数の語の配置を示す第1配置情報と、該フレーズが前記第2言語で記述された場合の複数の語の配置を示す第2配置情報と、を取得する配置情報取得手段をさらに有し、前記翻訳テキスト決定手段は、前記第1比較手段による比較の結果と、前記第2比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記第1テキストに対応する第1配置情報と、前記第2テキストに対応する第2配置情報と、を決定する配置情報決定手段をさらに有し、前記配置情報決定手段により前記第1配置情報および前記第2配置情報が決定された後、前記第1サブテキスト生成手段は、前記第1サブテキストを第1テキストとして取得して該第1テキストをさらに区切り、前記第2サブテキスト生成手段は、前記第2サブテキストを第2テキストとして取得して該第2テキストをさらに区切ることを特徴とする情報処理装置である。
また、請求項3に記載の発明は、請求項1又は2に記載の情報処理装置であって、前記第1サブテキストと、前記翻訳テキスト決定手段により該第1サブテキストの翻訳テキストと決定された第2サブテキストと、を対応づけて辞書データベースに登録する登録手段をさらに有することを特徴とする情報処理装置である。
また、請求項4に記載の発明は、コンピュータを、第1言語で記述された第1テキストと、前記第1テキストの内容が第2言語で記述された第2テキストと、を取得するテキスト取得手段、複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合のある語の位置と、該フレーズが前記第2言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段、前記第1テキストを複数の第1サブテキストに区切る第1サブテキスト生成手段、前記第2テキストを複数の第2サブテキストに区切る第2サブテキスト生成手段、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合の複数の語の配置と、前記第1テキストにおける前記複数の第1サブテキストの配置と、を比較する第1比較手段、前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第2言語で記述された場合の複数の語の配置と、前記第2テキストにおける前記複数の第2サブテキストの配置と、を比較する第2比較手段、および前記第1比較手段による比較の結果と、前記第2比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記複数の第1サブテキストの少なくとも1つについて、前記複数の第2サブテキストの1つを、該第1サブテキストの前記第2言語による翻訳テキストと決定する翻訳テキスト決定手段、として機能させるためのプログラムである。
請求項1および4に記載の発明によれば、第1言語で記述された第1テキストと、第1テキストの内容が第2言語で記述された第2テキストと、複数の形式のフレーズのそれぞれについて、該フレーズが第1言語で記述された場合のある語の位置と、該フレーズが第2言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報と、に基づいて、第1テキストの一部であるサブテキストの翻訳テキストが決定される。
請求項2に記載の発明によれば、第1サブテキストおよび第2サブテキストがさらに区切られて生成されるテキストについて、翻訳テキストが決定される。
請求項3に記載の発明によれば、第1サブテキストと、該第1サブテキストの翻訳テキストと決定された第2サブテキストと、が対応づけられて辞書データベースに登録される。
本発明の実施形態に係る情報処理装置の構成を示す図である。 例文対訳辞書データベースに記憶されるデータの一例を示す図である。 文パターン対訳辞書データベースに記憶されるデータの一例を示す図である。 1つの文パターンのデータ構造を示す図である。 対訳文パターンの一例を示す図である。 フレーズ対訳辞書データベースに記憶されるデータの一例を示す図である。 単語対訳辞書データベースに記憶されるデータの一例を示す図である。 本実施形態に係る文パターンマッチング部の処理フローを示す図である。 本実施形態に係る距離計算部の処理フローを示す図である。 本実施形態に係る距離計算部の計算過程の例を示す図である。 本実施形態に係る写像抽出部の処理フローを示す図である。 本実施形態に係る写像抽出部の処理フローを示す図である。 本実施形態に係る写像抽出部の処理フローを示す図である。 本実施形態に係る情報処理装置の動作を示すフローチャートである。 本実施形態に係る情報処理装置におけるテキスト処理を示すフローチャートである。 本実施形態に係る情報処理装置におけるフレーズ処理を示すフローチャートである。 本実施形態に係る情報処理装置における翻訳テキストの決定処理および登録処理を示すフローチャートである。 本実施形態に係る情報処理装置において処理されるデータの例を示す図である。 本実施形態に係る情報処理装置において処理されるデータの例を示す図である。 本実施形態に係る情報処理装置において処理されるデータの例を示す図である。 本実施形態に係る情報処理装置において処理されるデータの例を示す図である。
以下、本発明の実施形態について図面に基づき詳細に説明する。図1は、本発明の実施形態に係る情報処理装置100の構成を示す図である。情報処理装置100は、例文対訳辞書データベース200、文パターン対訳辞書データベース300、フレーズパターン対訳辞書データベース400、フレーズ対訳辞書データベース500、および単語対訳辞書データベース600と接続されている。情報処理装置100は、CPU120、記憶部140、および外部I/F部160を含む。
情報処理装置100のCPU120は、記憶部140に記憶されるプログラムにより動作する。CPU120の詳細は後述する。
情報処理装置100の記憶部140は、メモリー等の記憶素子からなり、CPU120により読み出されるプログラム、および後述するCPU120の各部における処理によって生成される各種データを記憶する。記憶部140は、前述のプログラムを記憶するプログラム記憶部141(図示しない)、前述の各種データを記憶する文パターン候補記憶部142、フレーズパターン候補記憶部143、および対訳フレーズ記憶部144を含む。文パターン候補記憶部142、フレーズパターン候補記憶部143、および対訳フレーズ記憶部144については後述する。
情報処理装置100の外部I/F部160は、情報処理装置100と接続される例文対訳辞書データベース200、文パターン対訳辞書データベース300、フレーズパターン対訳辞書データベース400、フレーズ対訳辞書データベース500、および単語対訳辞書データベース600(以下、総称して各データベースという)とCPU120との間のデータのやりとりを制御する。外部I/F部160は、CPU120から入力されたデータを各データベースに出力する。また、外部I/F部160は、CPU120から入力される制御信号に基づき各データベースからデータを取得し、CPU120に出力する。
例文対訳辞書データベース200は、情報処理装置100において翻訳テキストの決定が行われる言語による例文対訳辞書データを記憶する。例えば日本語(第1言語)と中国語(第2言語)との間の翻訳テキストの決定を行う場合、日本語による例文(テキスト)と、中国語による例文(テキスト)と、を関連づけて記憶する。ここで記憶されるデータは、何らかのデータベースから取得されてもよいし、情報処理装置100の使用者等により入力されて記憶されてもよい。図2は、例文対訳辞書データベース200に記憶されるデータの一例を示す図である。
文パターン対訳辞書データベース300は、情報処理装置100において翻訳テキストの決定が行われる言語による文パターン対訳辞書データを記憶する。図3は、文パターン対訳辞書データベース300に記憶されるデータの一例を示す図である。文パターン対訳辞書データは、複数の形式の要素(固定項目、或いは可変項目)のそれぞれについて、該要素が第1言語で記述された場合のある語/可変項目の位置と、該要素が第2言語で記述された場合の前述のある語/可変項目に対応する語/可変項目の位置と、の対応関係を示す位置対応情報である。例えばある形式のフレーズが第1言語である日本語で記述された場合の文パターンT1(第1配置情報)がa1a2a3a4a5、第2言語である中国語で記述された場合の文パターンT2(第2配置情報)がb1b2b3b4b5b6と表現され(ax、bxは文パターンの要素である固定項目、或いは可変項目)、a1とb1、a2とb3、a3とb4およびb5、a5とb6がそれぞれ対応する場合、対応関係情報F2(T1,T2)は、F2(T1,T2)={(1:1),(2:3),(3:4,5),(5:6)}と表現される。
図4は、1つの文パターンのデータ構造を示す図である。文パターンは、ある言語の文の構成を示す情報であり、また文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含んでいる。なお、上述の文字列は、複数の単語からなる句または1つの単語を表す。1つの文パターンは、1または複数の固定項目と、1または複数の可変項目とを含んでいる。そして、図4では固定項目や可変項目は、文の先頭に対応させるものから順に並んでいる。
可変項目は、位置情報と、タイプ情報と、変数情報と、語彙体系情報と、用例情報と、を含む。固定項目は、位置情報と、タイプ情報と、固定内容と、品詞情報と、サブ構造情報とを含む。位置情報は固定項目と可変項目との両方に含まれており、文の中で表れる順番を通番で示す。タイプ情報は可変項目か固定項目かを示す情報であり、固定項目であれば「f」、可変項目であれば「v」となる。変数情報は可変項目の品詞を示す情報であり、例えば、「NP」であれば名詞フレーズの変数であることを、「AP」であれば形容詞フレーズの変数であることを、「DP」であれば副詞フレーズの変数であることを示す。語彙体系情報は、可変項目に入る主単語(フレーズの意味を左右する単語)の語彙体系を示す情報である。用例情報は文パターンの可変項目に入る主単語の用例を示す情報である。固定内容は固定項目の文字列を示す情報であり、品詞情報は固定項目に設定される単語の品詞を示す情報である。例えば日本語単語の品詞情報が「61」ならその固定項目が格助詞であることを示す。サブ構造情報は固定項目が複数の単語で構成される場合に、そのそれぞれの単語の情報を示す。
ここで、文パターンのなかで最も特徴的である情報である、可変項目の存在を示す情報と、固定項目の固定内容の情報とを言語構成情報と呼ぶ。具体的には可変項目の位置情報およびタイプ情報と、固定項目の位置情報、タイプ情報および固定内容とに対応する。以下では原言語文パターンに含まれる言語構成情報を原言語構成情報と、目的言語例文パターンに含まれる言語構成情報を目的言語構成情報と呼ぶ。
図5は、対訳文パターンの一例を示す図である。対訳文パターンは、原言語(第1言語)文パターンと、目的言語(第2言語)文パターンと、アライメント情報とを含む。図5に示す文パターンでは、固定項目および可変項目どうしの区切りをスペースで、固定項目および可変項目に含まれる情報間の区切りを「/」で示している。また、図5では位置情報は固定項目および可変項目の並び順により表し、個々の可変項目や固定項目の中には記していない。例えば、原言語文パターンの1番目の項目の「v/NP/人/」はその項目が可変項目であり、可変項目は名詞フレーズであり、語彙体系は「人」であり、用例は設定されていないことを示し、原言語文パターンの5番目の項目の「f/改選する/89/属性変化[改選/17/する/47/]」は、その項目が固定項目であり、文字列が「改選する」であり、それがサ変動詞(89)でありサブ構造として、「改選」と「する」からなり属性変化していることを示している。
アライメント情報は、原言語の可変項目と目的言語の可変項目との対応関係、および原言語の固定項目と目的言語の固定項目との対応関係を示す言語間対応情報である。図5では、「3:」は対応付けが3つあることを示し、「1−1;」は原言語文パターンの1番目の項目と目的言語文パターンの1番目の項目とが対応していることを示し、「501,502−2;」原言語文パターンの5番目の項目の1番目のサブ項目と2番目のサブ項目とは、目的言語文パターンの2番目の項目に対応することを示す。ここで「501」は原言語文パターンの5番目の項目の1番目のサブ項目を示している。
フレーズパターン対訳辞書データベース400は、情報処理装置100において翻訳テキストの決定が行われる言語によるフレーズパターン対訳辞書データを記憶する。フレーズパターン対訳辞書データベース400には、図3と同様の形式のデータが記憶される。
フレーズ対訳辞書データベース500は、情報処理装置100において翻訳テキストが決定されたフレーズ対訳データを記憶する。図6は、フレーズ対訳辞書データベース500に記憶されるデータの一例を示す図である。
単語対訳辞書データベース600は、情報処理装置100において翻訳テキストが決定された単語対訳データを記憶する。図7は、単語対訳辞書データベース600に記憶されるデータの一例を示す図である。
情報処理装置100のCPU120について、以下に詳細に説明する。CPU120は、制御部121(図示しない)、テキストデータ取得部122、形態素解析部123、文パターン候補検索部124、文パターンマッチング部125、対訳フレーズ抽出部126、フレーズパターン候補検索部127、フレーズパターンマッチング部128、および単語アライメント抽出部129を含む。
CPU120の各部の動作を、実際に処理されるデータの例を用いて説明する。以下、図2に示される、例文対訳辞書データベース200に記憶されるテキストデータ701、702に対して処理を行う場合について説明する。
制御部121は、CPU120全体の動作を制御する。テキストデータ取得部122は、第1言語で記述されたテキストデータ(第1テキスト)と、第1テキストの内容が第2言語で記述されたテキストデータ(第2テキスト)と、を取得するテキスト取得手段として動作する。テキストデータ取得部122は、例文対訳辞書データベース200から第1言語で記述したテキストデータ701、および第2言語で記述したテキストデータ702を取得し、形態素解析部123に出力する。
形態素解析部123は、第1テキストを複数の第1サブテキスト(形態素または単語)に区切り、区切られた形態素または単語の品詞を付与する第1サブテキスト生成手段および前記第2テキストを複数の第2サブテキスト(形態素または単語)に区切り、区切られた形態素または単語の品詞を付与する第2サブテキスト生成手段として動作する。形態素解析部123は、テキストデータ取得部122から入力されたテキストデータ701、702の形態素解析を行う。具体的には、形態素解析部123は、テキストデータ取得部122から入力されたテキストデータ701、702について、形態素または単語(第1サブテキスト、第2サブテキスト)への分割処理および各形態素または単語への品詞付与処理である形態素解析を行う。形態素解析は、既に公知である形態素解析技術、例えば日本語の形態素解析技術Chasen、中国語の形態素解析技術による清華大学のSeg&PCツール、中国東北大学のCiPosSDKツールにより行われる。
文パターン候補検索部124は、複数の形式のフレーズのそれぞれについて、該フレーズが第1言語で記述された場合のある語の位置と、該フレーズが第2言語で記述された場合の、前述のある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段、および該フレーズが第1言語で記述された場合の複数の語の配置を示す第1配置情報と、該フレーズが第2言語で記述された場合の複数の語の配置を示す第2配置情報と、を取得する配置情報取得手段として動作する。文パターン候補検索部124は、文パターン対訳辞書データベース300に記憶されている文パターン対訳辞書データから、第1テキストおよび第2テキストとマッチング可能な文パターン(第1文パターンと第2文パターンの組)を文パターン候補として取得する。文パターン候補の検索は、既知の検索方法、例えば特開2009−129032号公報に記載の方法により行われる。検索の結果抽出された文パターン候補は、記憶部140の文パターン候補記憶部142に記憶される。
文パターンマッチング部125は、第1文パターンと第1テキストにおける前記複数の第1サブテキストの配置とをマッチングする第1マッチング手段(第1比較手段)、および第2文パターンと前記第2テキストにおける前記複数の第2サブテキストの配置とをマッチングする第2マッチング手段(第2比較手段)、および第1マッチング手段によるマッチングの結果と、第2マッチング手段によるマッチングの結果と、第1文パターンの各項目と第2文パターンの各項目間の対応情報と、に基づいて、第1テキストの各サブテキストにそれぞれ対応する第1文パターンの項目と、第2テキストの各サブテキストにそれぞれ対応する第2文パターンの項目と、を決定する配置情報決定手段として動作する。文パターンマッチング部125は、形態素解析が行われた第1テキストデータと第2テキストデータのそれぞれと、文パターン候補記憶部142に記憶される文パターン候補の第1文パターンと第2文パターンのそれぞれにマッチングし、該対訳テキストデータが該対訳文パターン候補にマッチング可能か否かを判定するパターンマッチング処理を行う。パターンマッチング処理は、後述する方法により行われ、第1テキスト(又は第2テキスト)を、第1文パターン(又は第2文パターン)に該当する形式に変更する際に必要な編集の分量を示す「拡張編集距離」を算出する。
パターンマッチング処理について、以下に説明する。図8は、本実施形態に係る文パターンマッチング部125の処理フローを示す図である。はじめに、文パターンマッチング部125に含まれる距離計算部130(図示しない)は、各候補となる第1文パターン(又は第2文パターン)と、第1テキスト(又は第2テキスト)との距離を求める(S801)。以下ではステップS801の処理について距離計算部130のフローを示しながら説明する。
図9は、本実施形態に係る距離計算部130の処理フローを示す図である。図9では、第1テキスト(又は第2テキスト)と、候補となる1つの第1文パターン(又は第2文パターン)との拡張編集距離を計算する処理フローのみを示す。実際にはこれらの処理は、候補となる第1文パターン(又は第2文パターン)の数だけ繰り返される。距離計算部130は、はじめに、形態素解析部123により分割された入力文の単語(その数をmとする)を、順にデータ列s1〜smに格納する(S901)。次に、候補となる1つの第1文パターンの可変項目および固定項目(それらをあわせた数をnとする)のそれぞれについて、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報を位置情報の小さいものから順にデータ列a1〜anに格納する(S902)。なお、以下ではs0およびa0も登場するが、これらは第1テキストおよび第1文パターンの先頭であることを示し、これらは空文字列に相当する。
第1テキストと第1文パターンとの拡張編集距離は、第1テキストの各単語と第1文パターンの可変項目および固定項目との間の対応関係に依存するものとする。第1テキストと第1文パターンとの拡張距離は、その第1テキストと第1文パターンとの間で存在しうる複数の対応関係のそれぞれについて求められる変換重みのなかで最小なものを距離とする。ある対応関係における変換重みは、可変項目および固定項目とそれに対応する単語との重みや、単語と項目が対応しない場合の重みを積算したものである。より具体的には、例えば、ai(iは1からn)がsj(jは1からm)と対応するとした場合に、aiが可変項目のとき、aiが任意のサブテキストに対応可能であるから、編集重みが0である。aiが固定項目のとき、aiとsjとが同じ単語であれば編集が不要なので編集重みが0、aiとsjとが異なる単語であれば置換が必要なので編集重みがp、aiに対応するsjが無ければ入力文に単語の挿入が必要なので編集重みがq、反対にsjに対応するaiが無ければ入力文から単語の削除が必要なので編集重みがrであるとして求められる重みを積算する。ここで、p、q、rは正の定数である。また、対応関係については、第1文パターンも第1テキストの単語も並び順が破壊されないという条件と、可変項目は入力文の複数の単語に対応しうるという条件を満たすものとする。前者の条件の例は、例えばaiとsjとが対応する場合、a(i+1)とs(j−1)とは対応することはないといったことである。後者の条件は可変項目が複数の単語からなる句であってもよいことから生じる。前者の条件から、第1文パターンのうちa1からaiと入力文のうちs1からsjとの間での全ての対応関係における最小の距離d(i,j)は、d(i−1,j−1)、d(i−1,j)、d(i,j−1)の全てと、aiとsjとの関係がわかれば求められる。以下では上述の法則を利用した計算方法について説明する。
距離計算部130は、距離の値が格納され、(n+1)×(m+1)の2次元配列dと、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうちどれを用いて計算するとd(i,j)が最小の距離となるかを示すn×mの配列PathFlagとを初期化する(S903)。配列dは、d(0,0)からd(n,m)まであり、d(i,j)は部分文字列a1a2…aiとs1 s2…sj間の距離を表す。d(i,0)にはi×qが、d(0,j)にはj×rが代入される。配列PathFlagはPathFlag(1,1)からPathFlag(n,m)まである。次に、変数iおよびjに1を代入し(S904)、繰返し処理をはじめる。距離計算部130は、a1からaiとs1からsjとの間での最小の距離d(i,j)を求め、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうちどれを用いて計算すると最小となるかをPathFlag(i,j)に格納する(S905)。d(i,j)は以下の方法で計算される。
aiが可変項目の場合:
d(i,j)=min{d(i−1,j−1)+w(ai,sj),d(i−1,j)+q,d(i,j−1)}
aiが固定項目の場合:
d(i,j)=min{d(i−1,j−1)+w(ai,sj),d(i−1,j)+q,d(i,j−1)+r}
ここで、w(ai,sj)は、aiが可変項目の場合は、例えば0であり、aiが固定項目であれば例えばaiとsjとが等しければ0、等しくなければpである。また、d(i−1,j−1)、d(i−1,j)、d(i,j−1)のうち距離が最小となるものが複数ある場合は、その全ての情報をPathFlag(i,j)に格納する。
次に距離計算部130はjを1増やし(S906)、jとmの比較を行う(S907)。S907の比較においてjがm以下であれば、S905からの処理を繰り返す。jがm以下でなければiを1増やし(S908)、iがn以下か判定する(S909)。iがn以下であれば、S905からの処理を繰り返す。iがn以下でなければ、距離としての変数d(n,m)と配列PathFlagとを第1文パターンに関連づけて記憶し(S910)、処理を終了する。
図10は、本実施形態に係る距離計算部130の計算過程の例を示す図である。図10の表の各セルの値は配列dの各セルの値を表し、矢印は左上、左、上のうちどのセルから計算すると距離が最小となるかを表している。この例では、入力文が「私は富士ゼロックスの社員です」、原言語構成情報の候補が、「[v]は[v]です」である場合について最小の距離を計算した例を示している。ここで、この例ではp=q=r=1としている。この表によれば、配列PathFlagが最小の距離を計算する場合の入力文の単語と、可変項目および固定項目との関係を示すことがわかる。
図8において、S801の処理により第1文パターン(又は第2文パターン)の各候補と第1テキスト(又は第2テキスト)との編集拡張距離が求められると、文パターンマッチング部125は第1文パターン(又は第2文パターン)の候補のうちから編集拡張距離が最小となる第1文パターン(又は第2文パターン)を選択する(S802)。ここで、選択される第1文パターン(又は第2文パターン)は、必ずしも1つとは限らない。仮に距離が最小となる第1文パターン(又は第2文パターン)の種類が1つであったとしても、例えば第1文パターン(又は第2文パターン)が同じである複数の対訳例文パターンが存在する場合には、その対訳例文パターンの数の第1文パターン(又は第2文パターン)が選択されてよい。
次に、文パターンマッチング部125は、選択された第1文パターン(又は第2文パターン)の固定項目および可変項目の各項目と第1テキスト(又は第2テキスト)の文字列との対応関係(以下最小写像と呼ぶ)を求める(S803)。S803の処理は、文パターンマッチング部125に含まれる写像抽出部131(図示しない)が行う。以下では写像抽出部131の処理フローとともにこの処理内容について説明する。
図11から13は、本実施形態に係る写像抽出部131の処理フローを示す図である。はじめに、写像抽出部131は、選択された第1文パターン(又は第2文パターン)に関連づけて記憶された配列PathFlagを取得し、さらにその第1文パターン(又は第2文パターン)に含まれる可変項目および固定項目の情報をそれぞれ位置情報の順に格納したデータ列a1〜anを取得する(S1101)。この可変項目および固定項目の情報は具体的には、可変項目であるか否かの情報および固定項目の場合の固定内容の文字列の情報である。次に、選択された第1文パターン(又は第2文パターン)の各可変項目および固定項目に対応する1または複数の単語を記憶するn個のリストからなる配列Matを初期化し、(n,m)と、0と、配列Matをスタックにpushする(S1102)。
次に、写像抽出部131はスタックからpopし、値を変数組(i,j)と、変数uと、配列Matとに格納する(S1103)。S1104において変数組(i,j)が(0,0)であれば、最小写像が求まっているので最小写像のリストFsetに配列Matを追加し(S1105)、S1106において残りのスタックがあれば再びS1103から繰り返す。S1106において残りのスタックが無ければ処理は終了する。S1104で変数組(i,j)が(0,0)でない場合は、変数iが0であるか判定する(S1107)。変数iが0であれば、入力文のj番目の単語は脱落しているのでMat(0)のリストにその単語を追加し(S1108)、変数組(i,j−1)と、0と、配列Matをpushし(S1109)、S1103の処理から繰り返す。
S1107で変数iが0でなければ、aiが固定項目か判定する(S1200)。aiが固定項目であれば、PathFlag(i,j)について判定を行う(S1201)。S1201でPathFlag(i,j)が、d(i,j)をd(i−1,j−1)から求めたことを示せば、Mat(i)のリストにj番目の単語を追加し(S1202)、変数組(i−1,j−1)と、0と、配列Matをpushする(S1203)。以下ではPathFlag(i,j)が、d(i,j)をd(i−1,j−1)から求めたことを示すことを「(i−1,j−1)経由」と記載する。またd(i,j−1)やd(i−1,j)の場合はそれぞれ「(i,j−1)経由」、「(i−1,j)経由」と記す。S1201で(i−1,j−1)経由でない場合およびS1203の処理後は、PathFlag(i,j)が(i,j−1)経由か判定する(S1204)。(i,j−1)経由であれば、挿入であるのでMat(i)のリストにj番目の単語を追加し(S1205)、変数組(i,j−1)と、0と、配列Matをpushする(S1206)。(i,j−1)経由でない場合およびステップS1206の処理後は、S1301の処理に移る。次に、S1200でaiが可変項目であれば、PathFlag(i,j)について(i−1,j−1)経由か判定する(S1207)。(i−1,j−1)経由であれば、Mat(i)のリストにj番目から(j+u)番目の単語を追加し(S1208)、変数組(i−1,j−1)と、0と、配列Matをpushする(S1209)。S1207で(i−1,j−1)経由でない場合およびS1209の処理後は、PathFlag(i,j)が(i,j−1)経由か判定する(S1210)。(i,j−1)経由であれば、uを1増やし(S1211)、変数組(i,j−1)と、変数uと、配列Matをpushする(S1212)。S140で(i,j−1)経由でない場合およびS1212の処理後は、S1301の処理に移る。
S1301ではPathFlag(i,j)が(i−1,j)経由か判定する。(i−1,j)経由であれば、脱落であるので、Mat(i)のリストを空にし(S1302)、変数組(i−1,j)と、0と、配列Matをpushする(S1303)。S1301で(i−1,j)経由でない場合およびステップS1303の処理後は、S1103の処理から繰り返す。これらの処理により、写像のリストFsetが取得される。なお、スタックを使うことにより、写像が複数ある場合でもそれらが求められる。
S803の処理で写像が求められた後では、文パターンマッチング部125は写像が複数あるか確認し、複数の写像がある場合には、それらの写像から1つの写像を選択する(S804)。S804の処理は、文パターンマッチング部125の最適写像選択部132(図示しない)が行う。最適写像選択部132は、写像が複数ある場合に、各写像について、可変項目の単語により構成される句を、いくつかの基準により評価し、それらの評価を総合的に判断して1つの写像を選択する。その評価の基準としては、例えば、その句が辞書に存在するか、その句に動詞、助詞、助動詞が含まれるか、などがある。
文パターンマッチング部125の目的言語構成情報選択部133(図示しない)は、選択された第1文パターンに対応する目的言語の文の構成を示す複数の第2文パターンであってそれぞれがその文の固定文字列を示す固定項目と可変の文字列を示す可変項目とを含む第2文パターンのうちから1つの第2文パターンを、第1文パターンと第2文パターンとに関連づけられる評価情報に基づいて選択する。ここで、評価情報は、対訳例文パターンのうち第1文パターンの部分を除いた部分を示す。対訳例文パターンは第1文パターンと第2文パターンを含むので、それによって第1文パターンおよび第2文パターンと関連づけられている。また、第1文パターンにおける可変項目の変数情報(品詞情報)や語彙体系や用例情報、そして対訳例文パターンにおける言語間対応情報や対訳例文情報なども第1文パターンに関連づけられている。可変項目の変数情報(品詞情報)や語彙体系や用例情報は可変項目の属性を示す情報である。なお、第2文パターンを選択することは、実質的に目的言語例文パターンも選択することおよび対訳例文パターンも選択することと同じである。
文パターンマッチング部125は、第1テキストと第1文パターン間の拡張編集距離、および第2テキストと第2文パターン間の拡張編集距離が共に「0」である場合に、該パターン候補が入力された対訳テキスト文にマッチング可能と判定する。文パターンマッチング部125により求められた第1テキストと第1文パターン間のマッチング情報、および第2テキストと第2文パターン間のマッチング情報は、対訳フレーズ抽出部126に出力される。
対訳フレーズ抽出部126は、文パターンマッチング部125またはフレーズパターンマッチング部128により第1パターンおよび第2パターンが決定された後、第1サブテキストを第1テキストとして取得して該第1テキストをさらに区切り、第2サブテキストを第2テキストとして取得して該第2テキストをさらに区切る。すなわち対訳フレーズ抽出部126は、文パターンマッチング部125において文パターン候補記憶部142に記憶される文パターン候補に規定されるパターンであると判定されたテキストデータのフレーズのそれぞれに対して形態素解析を行ってこれらを区切り、区切られたデータは対訳フレーズ記憶部144に出力されて記憶される。
フレーズパターン候補検索部127は、対訳フレーズ抽出部126により形態素解析が行われて対訳フレーズ記憶部144に記憶されたフレーズについて、フレーズパターン対訳辞書データベース400に記憶されているフレーズパターンのうち、マッチング可能なフレーズパターン(フレーズパターン候補)を検索する。フレーズパターン候補の検索は文パターン候補検索部124と同様に、既知の検索方法、例えばN−Gram検索方法により行われる。検索の結果抽出されたフレーズパターン候補は、記憶部140のフレーズパターン候補記憶部143に記憶される。
フレーズパターンマッチング部128は、対訳フレーズ記憶部144に記憶されるフレーズと、フレーズパターン候補記憶部143に記憶されるフレーズパターン候補と、について、文パターンマッチング部125同様の方法で、該フレーズが該フレーズパターン候補に規定されるパターンであるか否かを判定するパターンマッチング処理を行う。パターン候補に規定されるパターンであると判定されたフレーズは対訳フレーズ記憶部144に記憶されて再度対訳フレーズ抽出部126に入力され、パターン候補に規定されるパターンであると判定されなかったテキストデータは単語アライメント抽出部129に出力されるとともに、それらは互いに関連づけられてフレーズ対訳辞書データベース500に登録される。
単語アライメント抽出部129は、文パターンマッチング部125およびフレーズパターンマッチング部128等における比較の結果と、位置対応情報と、に基づいて、サブテキストの1つについて、サブテキストの1つを、該サブテキストの第2言語による翻訳テキストと決定する翻訳テキスト決定手段、および前記第1サブテキストと、翻訳テキスト決定手段により該第1サブテキストの翻訳テキストと決定された第2サブテキストと、を対応づけて辞書データベースに登録する登録手段として動作する。単語アライメント抽出部129は、対訳フレーズ抽出部126およびフレーズパターンマッチング部128から入力されるフレーズについて、それぞれが1つの単語からなる場合に、それぞれを互いに対応する翻訳単語と決定する単語アライメント処理を行う。単語アライメント処理は、既知の方法、例えば特開2010−027020号公報に記載の方法により実行される。抽出された翻訳単語は、互いに関連づけられて単語対訳辞書データベース600に登録される。
次に、本実施形態に係る情報処理装置100の動作を、フローチャートを用いて説明する。図14は、本実施形態に係る情報処理装置100の動作を示すフローチャートである。
まず、情報処理装置100は、例文対訳辞書データベース200に記憶されているテキストについて、パターンマッチング等のテキスト処理を行う(S1401)。
次に、情報処理装置100は、S1401の処理においてテキストが分割されて生成されたフレーズについて、パターンマッチング等の処理により生成された第1テキストのフレーズと第2テキストのフレーズ間の対応関係の特定処理を行う(S1402)。
そして、情報処理装置100は、S1402におけるフレーズ処理の結果に基づいて、翻訳テキストの決定処理および登録処理を行い(S1403)、処理は終了する。
次に図14におけるS1401のテキスト処理を説明する。図15は、本実施形態に係る情報処理装置100におけるテキスト処理を示すフローチャートである。
まず、テキストデータ取得部122は、例文対訳辞書データベース200からテキストデータ701,702を取得する(S1501)。形態素解析部123は、S1501でテキストデータ取得部122によって取得されたテキストデータ701、702の形態素解析を行う(S1502)。
次に、文パターン候補検索部124は、入力された第1テキストデータにマッチング可能な文パターン候補(対訳文パターン)を検索する(S1503)。S1503において文パターン候補が抽出されれば処理はS1505に進み、文パターン候補が抽出されなければ、処理はS1512に進む(S1504)。
S1504で、S1503において文パターン候補が抽出されたと判定された場合、文パターンマッチング部125は、S1502において形態素解析が行われた第1テキストデータと第2テキストデータと、S1503において抽出された文パターン候補の第1文パターンと第2文パターンと、について、第1テキストデータと第2テキストデータはそれぞれ第1文パターンおよび第2文パターンとマッチングできるか否かを判定するパターンマッチング処理を行う(S1505)。
そしてS1505の結果に対する判定が行われ(S1506)、第1テキストデータと第1文パターン間の拡張編集距離と第2テキストデータと第2文パターン間の拡張編集距離が共に0であれば、該対訳文パターンは該対訳テキストデータにマッチング可能と判定される(S1507)。そして対訳フレーズ抽出部126は、第1テキストデータおよび第2テキストデータについてさらに分割を行い(S1509)、得られるサブテキストは対訳フレーズ記憶部144に追加して保存され(重複データがなければ追加しない)(S1510)、処理はS1511に進む。一方拡張編集距離のいずれかが0でなければ、該対訳文パターンは該対訳テキストデータにマッチングできないと判定され(S1508)、処理はS1511に進む。S1511では、S1503で抽出された文パターン候補のうち、パターンマッチングが未実行のものがないか判定を行い、未実行のものがあればS1505に進んで未実行の文パターン候補に対してパターンマッチング処理を行い、未実行のものがなければ、処理はS1512に進む。S1512では、テキストデータ取得部122は、未処理のテキストデータの有無を確認する。未処理のテキストデータがあれば、処理はS1501に戻り、未処理のテキストデータがなければ、テキスト処理は終了する。
次に図14におけるS1402のフレーズ間対応関係の特定処理を説明する。図16は、本実施形態に係る情報処理装置100におけるフレーズ処理を示すフローチャートである。
フレーズパターン候補検索部127は、対訳フレーズ記憶部144に記憶されているサブテキストを取得し(S1601)、フレーズパターン対訳辞書データベース400に記憶されているフレーズパターンのうち、マッチング可能なフレーズパターン(フレーズパターン候補)を検索する(S1602)。S1602においてフレーズパターン候補が抽出されれば処理はS1604に進み、フレーズパターン候補が抽出されなければ処理はS1611に進む(S1603)。
S1603で、S1602においてフレーズパターン候補が抽出されたと判定された場合、フレーズパターンマッチング部128は、サブテキストと、S1602において抽出されたフレーズパターン候補の1つと、について、パターンマッチング処理を行う(S1604)。
そしてS1604の結果に対する判定が行われ(S1605)、2つの拡張編集距離が共に0であれば、該サブテキストが該フレーズパターン候補に規定されるパターンでマッチング可能と判定され(S1606)、対訳フレーズ抽出部126は、該サブテキスト(以下、親サブテキスト)の分割を行う(S1608)。S1608で親サブテキストが分割されて生成された子サブテキストは、対訳フレーズ記憶部144に追加して保存され(重複データがあれば追加しない)、代わって親サブテキストは対訳フレーズ記憶部144から消去され(S1609)、処理はS1610に進む。一方拡張編集距離のいずれかが0でなければ、該フレーズデータは該フレーズパターン候補に規定されるパターンではマッチング不可と判定され(S1607)、処理はS1610に進む。S1610では、S1602で抽出された文パターン候補のうち、パターンマッチングが未実行のものがないか判定を行い、未実行のものがあればS1604に進んでパターンマッチング未実行の文パターン候補に対してパターンマッチングを行い、未実行のものがなければ、処理はS1611に進む。S1611では、未処理のサブテキストの有無を確認し、未処理のサブテキストがあれば処理はS1601に進み、未処理のサブテキストがなければフレーズ処理は終了する。
次に、図14におけるS1403の翻訳テキストの決定処理および登録処理を説明する。図17は、本実施形態に係る情報処理装置100における翻訳テキストの決定処理および登録処理を示すフローチャートである。
単語アライメント抽出部129は、対訳フレーズ記憶部144に記憶される対訳フレーズデータを取得する(S1701)。次に、単語アライメント抽出部129は、S1701で取得された対訳フレーズについて、該対訳フレーズが共に複数の単語からなるか判定を行う(S1702)。該対訳フレーズの少なくとも一方が1単語である場合、単語対訳辞書データベース600に登録されて(S1703)、翻訳テキストの決定処理および登録処理は終了する。一方、対訳フレーズが共に複数の単語からなる場合は、単語アライメント抽出部129は、該フレーズをフレーズ対訳辞書データベース500に登録(S1704)したうえで単語アライメント処理を実行し(S1705)、単語アライメント処理で得られた対訳単語を単語対訳辞書データベース600に登録する(S1706)。以上で翻訳テキストの決定処理および登録処理は終了する。
次に、本実施形態に係る情報処理装置100における処理を、具体的なデータの例を用いて説明する。図18から図21は、本実施形態に係る情報処理装置100において処理されるデータの例を示す図である。まず、テキストデータ1801,1802が例文対訳辞書データベース200に、パターン1803,1804および矢印で示される対応関係を示す情報が文パターン対訳辞書データベース300に、それぞれ記憶されている。形態素解析部123によるテキストデータ1801,1802に対する形態素解析、文パターン候補検索部124による文パターン候補の検索、および文パターンマッチング部125によるパターンマッチングが行われた結果、図19に示される対応関係1901および1902が得られる。ここで<A,B>は、AがBに対応していることを表す。すなわち、対応関係1901および1902の左辺の第1項がテキストデータ1801とパターン1803との関係、第2項がパターン1803とパターン1804との関係、第3項がパターン1804とテキストデータ1802との関係を示し、その結果、右辺に示すテキストデータ1801とテキストデータ1802との関係が得られることが示されている。
そして、ここで関係が得られたフレーズのそれぞれについて、パターンマッチングを行う。例えば図19の対応関係1902で示される関係が得られたフレーズについてパターンマッチングを行った例を図20に示す。すなわち、フレーズ2001,2002について、例えばパターン2003,2004とのパターンマッチングを行なわれ、対応関係2005,2006が得られる。
こうして対応関係が得られた「この資料」(およびその中国語表現)と「FXの田中部長」(およびその中国語表現)については、マッチングするパターンが存在しない。そしてこれらのフレーズは複数の単語から構成されているため、単語アライメント抽出部129は単語アライメント処理を実行し(図17のS1702、S1705参照)、単語のペアを抽出する。
その結果、図21に示される対訳フレーズ2101,2102および対訳単語2103,2104,2105,2106,2107,2108が決定され、これらが対訳単語辞書データベースに登録される。
以上の構成により、第1言語で記述された第1テキストと、第1テキストの内容が第2言語で記述された第2テキストと、所定のフレーズを第1言語で記述した場合の語の配置を示す第1配置情報により示される、少なくとも1つの語の位置と、前記所定のフレーズを前記第2言語で記述した場合の語の配置を示す第2配置情報により示される前記語に対応する語の位置と、の対応関係を示す位置対応情報と、に基づいて、第1テキストの一部である第1サブテキストの翻訳テキストが決定される。
よって、例えば新しい分野に関する対訳単語辞書を作成する場合には、当該分野に関する例文対訳辞書データベース200を用意すれば、対象とする言語の従来の文パターン対訳辞書データベース300およびフレーズパターン対訳辞書データベース400と組み合わせて処理を行うことで、当該分野の対訳単語辞書が自動的に作成される。
なお、本実施形態においては、入力されるデータとして、入手や生成が比較的容易なテキスト(文)を使用した情報処理装置100の構成を示したが、最初からテキストの一部であるフレーズを使用する構成としてもよく、その場合テキストとフレーズのそれぞれについて設けられていた構成は1つにしてもよく、その場合、形態素解析部123および対訳フレーズ抽出部126は1つの形態素解析手段(第1サブテキスト生成手段、第2サブテキスト生成手段として動作する)、文パターン候補検索部124およびフレーズパターン候補検索部127は1つのフレーズパターン候補検索手段、文パターンマッチング部125およびフレーズパターンマッチング部128は、1つのフレーズパターンマッチング手段として設けられる。
なお、情報処理装置100の上述の動作は、記憶部140のプログラム記憶部141に記憶されるプログラムを動作させることで実現される。このプログラムは、通信によって提供されてもよいし、コンピュータによる読み取りが可能な、CD−ROM等の記憶媒体に格納されて提供されてもよい。
100 情報処理装置、120 CPU、121 制御部、122 テキストデータ取得部、123 形態素解析部、124 文パターン候補検索部、125 文パターンマッチング部、126 対訳フレーズ抽出部、127 フレーズパターン候補検索部、128 フレーズパターンマッチング部、129 単語アライメント抽出部、130 距離計算部、131 写像抽出部、132 最適写像選択部、133 目的言語構成情報選択部、140 記憶部、141 プログラム記憶部、142 文パターン候補記憶部、143 フレーズパターン候補記憶部、144 対訳フレーズ記憶部、160 外部I/F部、200 例文対訳辞書データベース、300 文パターン対訳辞書データベース、400 フレーズパターン対訳辞書データベース、500 フレーズ対訳辞書データベース、600 単語対訳辞書データベース、701、702、1801、1802 テキストデータ、1803、1804、2003、2004 パターン、1901、1902、2005、2006 対応関係、2001、2002 フレーズ、2101、2102 対訳フレーズ、2103、2104、2105、2106、2107、2108 対訳単語。

Claims (4)

  1. 第1言語で記述された第1テキストと、前記第1テキストの内容が第2言語で記述された第2テキストと、を取得するテキスト取得手段と、
    複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合のある語の位置と、該フレーズが前記第2言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段と、
    前記第1テキストを複数の第1サブテキストに区切る第1サブテキスト生成手段と、
    前記第2テキストを複数の第2サブテキストに区切る第2サブテキスト生成手段と、
    前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合の複数の語の配置と、前記第1テキストにおける前記複数の第1サブテキストの配置と、を比較する第1比較手段と、
    前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第2言語で記述された場合の複数の語の配置と、前記第2テキストにおける前記複数の第2サブテキストの配置と、を比較する第2比較手段と、
    前記第1比較手段による比較の結果と、前記第2比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記複数の第1サブテキストの少なくとも1つについて、前記複数の第2サブテキストの1つを、該第1サブテキストの前記第2言語による翻訳テキストと決定する翻訳テキスト決定手段と、
    を有することを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合の複数の語の配置を示す第1配置情報と、該フレーズが前記第2言語で記述された場合の複数の語の配置を示す第2配置情報と、を取得する配置情報取得手段をさらに有し、
    前記翻訳テキスト決定手段は、
    前記第1比較手段による比較の結果と、前記第2比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記第1テキストに対応する第1配置情報と、前記第2テキストに対応する第2配置情報と、を決定する配置情報決定手段をさらに有し、
    前記配置情報決定手段により前記第1配置情報および前記第2配置情報が決定された後、
    前記第1サブテキスト生成手段は、前記第1サブテキストを第1テキストとして取得して該第1テキストをさらに区切り、
    前記第2サブテキスト生成手段は、前記第2サブテキストを第2テキストとして取得して該第2テキストをさらに区切ることを特徴とする情報処理装置。
  3. 請求項1又は2に記載の情報処理装置であって、
    前記第1サブテキストと、前記翻訳テキスト決定手段により該第1サブテキストの翻訳テキストと決定された第2サブテキストと、を対応づけて辞書データベースに登録する登録手段をさらに有することを特徴とする情報処理装置。
  4. コンピュータを、
    第1言語で記述された第1テキストと、前記第1テキストの内容が第2言語で記述された第2テキストと、を取得するテキスト取得手段、
    複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合のある語の位置と、該フレーズが前記第2言語で記述された場合の前記ある語に対応する語の位置と、の対応関係を示す位置対応情報を取得する位置対応情報取得手段、
    前記第1テキストを複数の第1サブテキストに区切る第1サブテキスト生成手段、
    前記第2テキストを複数の第2サブテキストに区切る第2サブテキスト生成手段、
    前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第1言語で記述された場合の複数の語の配置と、前記第1テキストにおける前記複数の第1サブテキストの配置と、を比較する第1比較手段、
    前記複数の形式のフレーズのそれぞれについて、該フレーズが前記第2言語で記述された場合の複数の語の配置と、前記第2テキストにおける前記複数の第2サブテキストの配置と、を比較する第2比較手段、および
    前記第1比較手段による比較の結果と、前記第2比較手段による比較の結果と、前記位置対応情報と、に基づいて、前記複数の第1サブテキストの少なくとも1つについて、前記複数の第2サブテキストの1つを、該第1サブテキストの前記第2言語による翻訳テキストと決定する翻訳テキスト決定手段、
    として機能させるためのプログラム。
JP2011209938A 2011-09-26 2011-09-26 情報処理装置およびプログラム Withdrawn JP2013073282A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011209938A JP2013073282A (ja) 2011-09-26 2011-09-26 情報処理装置およびプログラム
US13/366,040 US20130080148A1 (en) 2011-09-26 2012-02-03 Information processing apparatus, information processing method, and computer readable medium
CN2012100620749A CN103020041A (zh) 2011-09-26 2012-03-09 信息处理设备和信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011209938A JP2013073282A (ja) 2011-09-26 2011-09-26 情報処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2013073282A true JP2013073282A (ja) 2013-04-22

Family

ID=47912228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011209938A Withdrawn JP2013073282A (ja) 2011-09-26 2011-09-26 情報処理装置およびプログラム

Country Status (3)

Country Link
US (1) US20130080148A1 (ja)
JP (1) JP2013073282A (ja)
CN (1) CN103020041A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302782B (zh) * 2015-11-23 2019-04-26 魅族科技(中国)有限公司 一种信息转换方法及装置
CN107908792B (zh) * 2017-12-13 2021-10-22 北京百度网讯科技有限公司 信息推送方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
JP5239307B2 (ja) * 2007-11-20 2013-07-17 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム

Also Published As

Publication number Publication date
US20130080148A1 (en) 2013-03-28
CN103020041A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
JP6655788B2 (ja) 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
Unger et al. An introduction to question answering over linked data
JP5112116B2 (ja) 機械翻訳する装置、方法およびプログラム
CN1608259B (zh) 机器翻译
RU2626555C2 (ru) Извлечение сущностей из текстов на естественном языке
KR20170106308A (ko) 어노테이션 보조 장치 및 그것을 위한 컴퓨터 프로그램
JP6176017B2 (ja) 検索装置、検索方法、およびプログラム
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP2006268375A (ja) 翻訳メモリシステム
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
RU2665261C1 (ru) Восстановление текстовых аннотаций, связанных с информационными объектами
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
Tran et al. A VR interface for browsing visual spaces at VBS2021
JP2013073282A (ja) 情報処理装置およびプログラム
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
Dušek Novel methods for natural language generation in spoken dialogue systems
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Khoufi et al. Chunking Arabic texts using conditional random fields
JP4845857B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20141202