JP6067952B1 - 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 - Google Patents

翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 Download PDF

Info

Publication number
JP6067952B1
JP6067952B1 JP2016567101A JP2016567101A JP6067952B1 JP 6067952 B1 JP6067952 B1 JP 6067952B1 JP 2016567101 A JP2016567101 A JP 2016567101A JP 2016567101 A JP2016567101 A JP 2016567101A JP 6067952 B1 JP6067952 B1 JP 6067952B1
Authority
JP
Japan
Prior art keywords
word
consonant
array
transliteration
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016567101A
Other languages
English (en)
Other versions
JPWO2017002199A1 (ja
Inventor
聡志 江木
聡志 江木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP6067952B1 publication Critical patent/JP6067952B1/ja
Publication of JPWO2017002199A1 publication Critical patent/JPWO2017002199A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一実施形態に係る翻字処理装置は、所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列とを取得する文字列取得部と、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、当該判定の結果に基づいて第1の単語と第2の単語とが翻字関係にあるか否かを決定する決定部と、決定部によって翻字関係にあると決定された第1の単語及び第2の単語を翻字対として出力する出力部と、を備える。

Description

本発明の一側面は、翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置に関する。
従来、一の言語(例えば日本語)で記述された単語と、当該単語と翻字関係にある他の言語(例えば英語)で記述された単語とのペア(以下「翻字対」)が登録された翻字辞書データが、種々の用途で利用される。例えば、翻字辞書データは、インターネット上で商品(サービスを含む)を販売するウェブサイト(ECサイト)において、ユーザによって入力されるキーワードに基づく商品検索を行う際等に利用される。
例えば上記の商品検索の際に、当該商品検索を実行するコンピュータは、翻字辞書データを参照することにより、日本語のカタカナ表記の「ボジョレー」が検索キーワードとして入力された場合に、日本語のカタカナ表記の「ボジョレー」を含むウェブページだけでなく、日本語のカタカナ表記の「ボジョレー」と翻字関係にあるアルファベット表記の「Beaujolais」を含むウェブページも検索結果として提示することが可能となる。
従来、このような翻字辞書データの作成(すなわち、翻字辞書データへの翻字対の登録)は、人による手作業や、予め用意された学習データに基づく機械学習等によって行われている(例えば下記特許文献1参照)。
特開2007−156545号公報
しかしながら、上述した翻字辞書データの作成を人が手作業で行う場合(すなわち、一の言語の単語が他の言語の単語と翻字関係にあるか否かを人が個々に判断する場合)には、非常に手間がかかる。一方、翻字辞書データの作成を機械学習により行う場合には、適切な翻字ルールを網羅的に生成するための学習データ(すなわち、互いに翻字関係にあることが判明している翻字対)を用意することが困難であるという問題がある。これは、適切な翻字ルールが作成するためにどのような学習ルールを用いて機械学習を行えばよいかを事前に把握することが困難であることに起因する。そこで、このような翻字辞書データの作成の効率化を図るために、翻字対を効率良く検出することが要請されている。
本発明の一側面に係る翻字処理装置は、所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得部と、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、当該判定の結果に基づいて第1の単語と第2の単語とが翻字関係にあるか否かを決定する決定部と、決定部によって翻字関係にあると決定された第1の単語及び第2の単語を翻字対として出力する出力部と、を備える。
本発明の一側面に係る翻字処理方法は、少なくとも一つのプロセッサにより実行される翻字処理方法であって、所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得ステップと、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、当該判定の結果に基づいて第1の単語と第2の単語とが翻字関係にあるか否かを決定する決定ステップと、決定ステップにおいて翻字関係にあると決定された第1の単語及び第2の単語を翻字対として出力する出力ステップと、を含む。
本発明の一側面に係る翻字処理プログラムは、所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得ステップと、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、当該判定の結果に基づいて第1の単語と第2の単語とが翻字関係にあるか否かを決定する決定ステップと、決定ステップにおいて翻字関係にあると決定された第1の単語及び第2の単語を翻字対として出力する出力ステップと、をコンピュータに実行させる。
このような側面においては、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定結果に基づいて、第1の言語で記述された第1の単語と第2の言語で記述された第2の単語とが翻字関係にあるか否かが決定される。このように、互いに異なる文字体系を有する言語で記述された単語同士が翻字関係にあるか否かを、それぞれの単語をアルファベット表記で表したアルファベット文字列に含まれる子音要素間の対応関係に着目して決定することにより、翻字対を効率良く検出することができる。
本発明の一側面によれば、翻字対を効率良く検出することができる。
実施形態における翻字処理装置を含む情報処理システムの機能構成を示す図である。 翻字辞書データの一例を示す図である。 実施形態における情報処理システムに用いられるコンピュータのハードウェア構成を示す図である。 ECサイトのウェブページの構成の例を示す図である。 単語取得部、文字列取得部、及び分割部の処理の一例を示す図である。 単語取得部、文字列取得部、及び分割部の処理の一例を示す図である。 子音ルール及び禁止ルールの一例を示す図である。 実施形態に係る翻字処理装置の動作を示すフローチャートである。 図8におけるステップS4の処理の詳細を示すフローチャートである。 実施形態に係る翻字処理プログラムの構成を示す図である。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
図1〜図7を用いて、実施形態に係る翻字処理装置10を含む情報処理システム1の機能及び構成を説明する。情報処理システム1は、翻字処理装置10と、情報処理装置20と、を含む。
翻字処理装置10は、所定の文字体系を有する第1の言語で記述された第1の単語と、第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語とが翻字関係にあるか否かを決定し、翻字関係にあると決定された単語のペアを翻字対として出力する装置である。具体的には、翻字処理装置10は、第1の単語をアルファベット表記で表した第1のアルファベット文字列と、第2の単語をアルファベット表記で表した第2のアルファベット文字列とを取得する。そして、翻字処理装置10は、第1のアルファベット文字列に含まれる子音要素と第2のアルファベット文字列に含まれる子音要素とが予め定められた対応関係にあるか否かの判定の結果に基づいて、第1の単語と第2の単語とが翻字関係にあるか否かを決定する。
「文字体系」とは、世界で使用されている書き言葉(文字)の分類区分を意味する。文字体系の具体例としては、ラテン文字、アラビア文字、ギリシア文字、キリル文字、漢字、かな文字、ハングル等の分類区分が挙げられる。また、「ある言語aがある文字体系bを有する」とは、当該言語aにおいて使用される文字の分類区分が当該文字体系bであることを意味する。例えば、ラテン文字が使用される英語、フランス語、及びドイツ語等は、文字体系としてラテン文字を有する。同様に、ロシア語は文字体系としてキリル文字を有し、中国語は文字体系として漢字を有し、日本語は文字体系として漢字及びかな文字(ひらがな及びカタカナ)を有する。
「アルファベット表記」とは、個々の文字が子音又は母音の音素を表す音素文字による表記全般を意味する。本実施形態では、アルファベット表記の一例として、「A」から「Z」までの26個のラテン文字によるラテン文字表記を用いるが、アルファベット表記は、例えばギリシア文字やキリル文字等のラテン文字以外の文字による表記も含む概念であってよい。
「ある言語aの単語wをアルファベット表記で表したアルファベット文字列x」は、当該単語wがアルファベット表記(本実施形態では上述の通りラテン表記を意味する。以下同様。)で記述されている場合(例えば言語aが英語である場合等)には、当該単語wと同一の文字列である。一方、当該単語wがアルファベット表記で記述されていない場合(例えば言語aが日本語であり、単語wがカタカナ表記で記述されている場合等)には、上記アルファベット文字列xは、当該単語wをアルファベット表記(例えばローマ字表記等)に変換することにより得られる文字列である。
「翻字」とは、一の文字体系で記述された文字を他の文字体系による文字に変換することを意味する。ここで、一の文字体系で記述された1文字が他の文字体系で記述された1以上の文字に変換されてもよいし、一の文字体系で記述された2以上の文字が他の文字体系で記述された1以上の文字に変換されてもよい。
一の言語L1の単語W1と当該言語L1とは異なる文字体系を有する他の言語L2の単語W2とが「翻字関係にある」とは、単語W2が単語W1を翻字することにより得られる単語であること(すなわち、単語W1を言語L2による表記に変換した単語が単語W2であること)及びその逆が成立することを意味する。例えば、カタカナ表記の「ボジョレー」は、アルファベット表記の「Beaujolais」をカタカナ表記に変換した単語であるため、カタカナ表記の「ボジョレー」とアルファベット表記の「Beaujolais」とは、翻字関係にあるといえる。「翻字対」とは、互いに翻字関係にある単語の組を意味する。例えば上述したカタカナ表記の「ボジョレー」とアルファベット表記の「Beaujolais」との組は、翻字対である。
本実施形態では一例として、翻字処理装置10は、日本語(第1の言語)で記述されたカタカナ表記の単語(第1の単語。以下「カタカナ単語」という。)と、英語(第2の言語)で記述されたアルファベット表記の単語(第2の単語。以下「英単語」という。)とが翻字関係にあるか否かを決定する。ただし、翻字処理装置10によって翻字関係にあるか否かを決定する対象となる言語の組み合わせは、上記に限られず、互いに異なる文字体系を有する言語同士の組み合わせであれば何でもよい。なお、本実施形態で例示する英単語には、英語以外の言語に由来する単語(例えば上述したフランス語に由来する「Beaujolais」等)の英語表記が含まれる。
情報処理装置20は、翻字処理装置10から出力される翻字対が登録された翻字辞書データTを参照することにより予め定められた処理(詳しくは後述)を実行する装置である。図2に、翻字辞書データTの一例を示す。図2に示すように、翻字辞書データTは、互いに翻字関係にあるカタカナ単語及び英単語からなる翻字対を複数含むデータである。ここで、翻字辞書データTの実装方式は限定されない。例えば、翻字辞書データTは、翻字処理装置10から情報処理装置20に受け渡されるテキストファイルであってもよいし、任意のデータベース管理システムによって管理されるデータベースであってもよい。なお、図2における翻字辞書データTの左側の列にはカタカナ単語(カタカナ表記)に対応するローマ字表記を併記しているが、実際の処理においては、ローマ字表記は、翻字辞書データTに登録されていなくてもよい。
情報処理装置20が翻字辞書データTを参照することにより実行する処理及び用途は、特定の処理及び用途に限定されない。以下では、情報処理装置20がインターネット上で商品(サービスを含む)を販売するウェブサイト(ECサイト)を構成するコンピュータ装置として実装される場合を例に挙げて、情報処理装置20が実行する処理のいくつかの例について説明する。なお、ECサイトにより販売される「サービス」の具体例としては、旅行のツアー及び宿泊の予約、コンサートチケットの予約、並びにゴルフ場の予約等が挙げられる。
(情報処理装置による処理の第1の例)
情報処理装置20は、翻字辞書データTを参照することにより、ECサイトを利用するユーザによって入力される検索キーワードに基づく商品検索を実行してもよい。具体例として、カタカナ表記の「ボジョレー」がユーザによって検索キーワードとして入力された場合を考える。ここで、ECサイトに出品している販売者によって、同一の商品Xを示すために用いる表記が異なる場合がある。言い換えれば、ECサイト上において、商品Xをカタカナ表記の「ボジョレー」で表したウェブページもあれば、商品Xをカタカナ表記の「ボジョレー」と翻字関係にあるアルファベット表記の「Beaujolais」で表したウェブページもある場合がある。ここで、「ウェブページ」とは、インターネット等の通信ネットワークを介してアクセス可能な場所に保存された文書データである。ウェブページは、例えばHTML、スタイルシート、及び画像データ等を含み、ウェブブラウザによって閲覧可能なように構成されている。
情報処理装置20は、ユーザによって入力されたカタカナ表記の「ボジョレー」を第1の検索キーワードとして受け付けるとともに、翻字辞書データTを参照することにより、カタカナ表記の「ボジョレー」と翻字関係にあるアルファベット表記の「Beaujolais」を第2の検索キーワードとして取得する。そして、情報処理装置20は、第1の検索キーワード又は第2の検索キーワードを含む商品のウェブページを検索結果としてユーザに提示する。これにより、ECサイトを利用するユーザに対して、当該ユーザが所望する商品Xに関するより多くの情報を1回の検索操作(この例では、ユーザがカタカナ表記の「ボジョレー」を検索キーワードとして入力する操作)に対して提供することができる。その結果、ECサイトを利用するユーザの利便性を向上させることができる。また、ECサイトに商品を出品する店舗側にとっても、自身が販売する商品のウェブページが検索結果としてユーザに提示される機会が増えるため、自身が販売する商品の販売機会を増やすことができるというメリットがある。また、ユーザの検索回数を減らすことができるため、ユーザによって入力されるデータによる通信負荷や情報処理装置20での検索処理にかかる処理負荷等を抑制することもできる。
(情報処理装置による処理の第2の例)
情報処理装置20は、翻字辞書データTを参照することにより、ユーザによる文字入力を補完する処理を実行してもよい。例えば、ECサイト等の検索フォームにユーザがカタカナ表記の「ボジョレー」を入力した際に、その変換候補として、カタカナ表記の「ボジョレー」と翻字関係にあるアルファベット表記の「Beaujolais」をユーザに提示してもよい。これにより、ユーザは、変換候補として提示されたアルファベット表記の「Beaujolais」を選択することで、アルファベット表記の「Beaujolais」を検索キーワードとして入力することができる。従って、例えば、アルファベット表記の「Beaujolais」を含む商品のウェブページを検索するためにアルファベット表記の「Beaujolais」を検索キーワードとして入力する必要があり、且つ、ユーザがアルファベット表記の「Beaujolais」のスペルを知らない場合であっても、ユーザは所望する検索を容易に実行することが可能となる。その結果、ECサイトを利用するユーザの利便性を向上させることができる。また、誤ったスペルの検索キーワードがユーザによって入力されることを抑制することができるため、無駄な検索処理の発生を抑制することもできる。
(情報処理装置による処理の第3の例)
情報処理装置20は、翻字辞書データTを参照することにより、商品の同一性を判定する処理を実行してもよい。例えば同一のECサイトにおいて多数の出品者が同一の商品Xを個別に販売するような場合において、同一の商品Xが販売者によって様々な表記で表される場合がある。例えば同一の商品Xについて、ある販売者はカタカナ表記の「ボジョレー」を使用し、他の販売者はアルファベット表記の「Beaujolais」を使用する場合があり得る。このような場合に、情報処理装置20は、翻字辞書データTを参照することにより、カタカナ表記の「ボジョレー」とアルファベット表記の「Beaujolais」とが互いに翻字関係にあることを検出し、カタカナ表記の「ボジョレー」とアルファベット表記の「Beaujolais」とが同一の商品を指していることを把握することができる。その結果、例えば、情報処理装置20は、カタカナ表記の「ボジョレー」が使用されている商品の販売数とアルファベット表記の「Beaujolais」が使用されている商品の販売数とを集計することにより、ECサイトでの商品Xの販売総数を正確に算出することができる。
上記第1〜第3の例で述べた通り、情報処理装置20は、翻字辞書データTを参照することにより、様々な目的に応じた処理を実行することができる。ただし、上記の第1〜第3の例は翻字辞書データTを用いた処理の一例に過ぎない。情報処理装置20は、翻字辞書データTを参照することにより、第1〜第3の例以外の処理を実行してもよい。
図3に、翻字処理装置10又は情報処理装置20として機能するコンピュータ100の一般的なハードウェア構成を示す。コンピュータ100は、オペレーティングシステムやアプリケーション・プログラム等を実行するプロセッサ(例えばCPU(Central Processing Unit))101と、ROM(Read Only Memory)及びRAM(Random Access Memory)で構成される主記憶部102と、ハードディスクやフラッシュメモリ等で構成される補助記憶部103と、ネットワークカード或いは無線通信モジュールで構成される通信制御部104と、キーボードやマウス等の入力装置105と、モニタ等の出力装置106と、を備える。当然ながら、搭載されるハードウェアモジュールはコンピュータ100の種類により異なる。
情報処理システム1内の各機能要素は、プロセッサ101又は主記憶部102の上に所定のソフトウェアを読み込ませ、プロセッサ101の制御の下で通信制御部104や入力装置105、出力装置106等を動作させ、主記憶部102又は補助記憶部103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは、主記憶部102又は補助記憶部103内に格納される。
翻字処理装置10及び情報処理装置20のそれぞれは、単一のコンピュータ100によって構成されてもよいし、複数のコンピュータ100間で処理を分散して実行する構成とされてもよい。また、翻字処理装置10及び情報処理装置20は、互いに異なるコンピュータ100によって構成されてもよいし、単一のコンピュータ100によって構成されてもよい。
図1に示すように、翻字処理装置10は、機能的構成要素として、単語取得部11と、文字列取得部12と、分割部13と、決定部14と、ルール情報記憶部15と、出力部16と、を備える。翻字処理装置10の各構成要素について以下に説明する。
単語取得部11は、所定の文字体系を有する第1の言語で記述された第1の単語と、第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語と、を取得する機能要素である。上述の通り、本実施形態では一例として、第1の言語は文字体系としてかな文字を有する日本語であり、第1の単語はカタカナ表記のカタカナ単語である。また、第2の言語は文字体系としてラテン文字を有する英語であり、第2の単語はアルファベット表記の英単語である。従って、単語取得部11は、カタカナ単語w1及び英単語w2を取得する。単語取得部11により取得されるカタカナ単語w1及び英単語w2は、文字列取得部12に受け渡され、後述の文字列取得部12、分割部13、及び決定部14による処理を経て、翻字関係にあるか否かが決定される。
単語取得部11は、カタカナ単語w1及び英単語w2の一方又は両方を複数取得してもよい。この場合、翻字処理装置10は、カタカナ単語w1と英単語w2とのすべての組み合わせについて、後述する文字列取得部12、分割部13、及び決定部14による処理を実行すればよい。このようにすれば、単語取得部11によって取得されたカタカナ単語w1及び英単語w2の複数の組み合わせのうちから、翻字関係にある組み合わせを自動的に検出することが可能となる。
単語取得部11は、例えば、インターネット上に公開されている任意のウェブページに含まれるテキスト情報を入力として受け付け、当該テキスト情報に含まれるカタカナ表記の単語をカタカナ単語w1として取得し、当該テキスト情報に含まれるアルファベット表記の単語を英単語w2として取得してもよい。
同一のウェブページに含まれるテキスト情報には、同一の概念(例えば、外来語で表される物の名称、外国の地名、外国人の氏名等)についてカタカナ表記及びアルファベット表記のそれぞれで表したカタカナ単語及び英単語が含まれている可能性が高い。言い換えれば、同一のウェブページに含まれるテキスト情報には、互いに翻字関係にあるカタカナ単語及び英単語が含まれている可能性が高い。このため、同一のウェブページに含まれるテキスト情報から翻字関係にあるか否かを決定する対象となるカタカナ単語w1及び英単語w2を取得することにより、翻字対を効率良く検出することが期待できる。
また、図4に示すように、ECサイトにおいて商品又はサービスを提示するウェブページ(以下「商品ページ」と言う。)には、通常、商品の写真、価格、概要、詳細、レビューや商品を購入候補として選択する選択ボタン等の専用領域が設けられるとともに、商品又はサービスの名称を記載するための専用領域(商品名領域R)が設けられる。
ここで、商品又はサービスの名称が、カタカナ表記で表される場合(例えば、商品又はサービスの名称が、外来語で表される物の名称、外国の地名、外国人の氏名等に基づくものである場合)には、商品又はサービスの名称のカタカナ表記及びアルファベット表記の両方が商品名領域Rに含まれている可能性が高い。これは、ECサイトにおける商品ページは、なるべく多くのユーザの目に触れられることが好ましいからである。すなわち、商品ページの管理者(例えば当該商品ページに提示される商品又はサービスの販売者)は、インターネット上でのウェブページ検索において、当該商品ページがなるべく多くの検索キーワードにより検索ヒットすることを望む。このような事情から、商品名領域Rには、商品又はサービスの名称のカタカナ表記及びアルファベット表記の両方が記載されている可能性が高い。
そこで、単語取得部11は、ECサイトの商品ページにおける商品名領域R(商品又はサービスの名称の記載箇所)を特定し、当該商品名領域Rに含まれるカタカナ表記の単語をカタカナ単語w1として取得し、当該商品名領域Rに含まれるアルファベット表記の単語を英単語w2として取得してもよい。これにより、翻字関係にある可能性の高いカタカナ単語w1及び英単語w2を抽出することができ、翻字対をより効率良く検出することが期待できる。ここで、単語取得部11が商品名領域Rを特定する方法は何でもよいが、単語取得部11は、例えば商品ページのレイアウトを示すレイアウト情報(例えばHTML等で記述された情報)を参照することにより、商品名領域Rを特定してもよい。
ただし、単語取得部11がカタカナ単語w1及び英単語w2を取得する手法は上記の手法に限られない。例えば、単語取得部11は、翻字処理装置10のオペレータによって予め準備されたカタカナ単語w1及び英単語w2の組(或いは集合)を入力として受け付けてもよい。
文字列取得部12は、第1の単語をアルファベット表記で表した第1のアルファベット文字列と、第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する機能要素である。具体的には、文字列取得部12は、単語取得部11により取得された第1の単語及び第2の単語(本実施形態では一例として、カタカナ単語w1及び英単語w2)を必要に応じてアルファベット文字列に変換する機能要素である。
図5に示すように、カタカナ単語w1がカタカナ表記の「ボジョレー」であり、英単語w2がアルファベット表記の「BEAUJOLAIS」である場合を例として、文字列取得部12が実行する処理について説明する。なお、本明細書の以降の説明においては、英単語についてはすべて大文字で表すが、英単語w2が小文字を含んでいてもよいことは言うまでもない。なお、英単語w2が小文字を含んでいる場合には、文字列取得部12は、大文字のみを用いることで文字列処理の単純化を図るために、英単語w2に含まれるすべての小文字を大文字に変換してもよい。文字列取得部12は、例えば予め用意された大文字と小文字との対応を示す変換テーブルを参照することにより、英単語w2に含まれる小文字を当該小文字に対応する大文字に変換することができる。また、文字列取得部12は、小文字のみを用いることで文字列処理の単純化を図る場合には、上述した手法と同様の手法により、英単語w2に含まれるすべての大文字を小文字に変換してもよい。
図5の(a)に示すように、文字列取得部12は、カタカナ単語w1をローマ字表記(アルファベット表記)で表したローマ字文字列(第1のアルファベット文字列)str1に変換する。文字列取得部12は、例えば予め用意されたカタカナ文字とローマ字との対応を示す変換テーブルを参照することにより、カタカナ単語w1に含まれるカタカナ文字を、当該カタカナ文字に対応するローマ字に変換することができる。図5の(a)の例では、文字列取得部12は、上述した変換テーブルを用いた変換処理を実行することにより、カタカナ表記の「ボ」、「ジョ」、「レ」、「(エ)ー」のそれぞれをローマ字表記の「BO」、「JO」、「RE」、「E」に変換し、「BOJOREE」を示すローマ字文字列str1を取得する。
一方、本実施形態では、図5の(b)に示すように、英単語w2は既にアルファベット表記で表されている。従って、文字列取得部12は、単語取得部11により取得された英単語w2をそのまま英語文字列(第2のアルファベット文字列)str2として取得する。
分割部13は、ローマ字文字列str1からローマ字配列(第1の配列)Aを生成し、英語文字列str2から英語配列(第2の配列)Bを生成する機能要素である。具体的には、分割部13は、ローマ字文字列str1を母音字から子音字に切り替わる境界で分割し、分割された個々の要素をローマ字文字列str1における出現順に配列したローマ字配列Aを生成する。また、分割部13は、英語文字列str2を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を英語文字列str2における出現順に配列した英語配列Bを生成する。
ローマ字文字列str1又は英語文字列str2に、母音字から子音字に切り替わる境界がない場合には、分割部13は元のローマ字文字列str1又は英語文字列str2を単一の要素とするローマ字配列A又は英語配列Bを生成すればよい。母音字から子音字に切り替わる境界がない文字列の例としては、「de」等の子音要素と母音要素とがそれぞれ一つしかない文字列等がある。
「母音字」とは、アルファベット表記において母音を表す文字を意味する。上述の通り、本実施形態では一例として、アルファベット表記はラテン文字表記であるため、母音字は、「A」、「I」、「U」、「E」、「O」である。一方、「子音字」とは、アルファベット表記において子音を表す文字(すなわち母音字以外の文字)を意味する。すなわち、子音字は、「A」から「Z」までの26個の文字から上述した5つの母音字を除いた21個の文字である。
以下、図5及び図6を用いて、分割部13によって生成されるローマ字配列A及び英語配列Bについて説明する。なお、以下に説明する配列の表現形式は一例に過ぎず、分割部13によって生成される配列の具体的なデータ構造を限定するものではない。
(分割部による処理の第1の例)
図5を用いて、分割部13による処理の第1の例について説明する。図5の(a)に示すように、分割部13は、ローマ字文字列str1(“BOJOREE”)を母音字から子音字に切り替わる境界で分割することにより、「BO」、「JO」、「REE」の3つの要素に分割する。
このような分割処理は、例えば以下のようにして行われる。すなわち、分割部13は、予め母音字である文字の情報(以下「母音字情報」)を記憶しておく。そして、分割部13は、処理対象のローマ字文字列str1を先頭の文字から順に1文字ずつ読み込み、母音字情報を参照することにより、読み込まれた文字が母音字であるか子音字であるかを判定する。そして、分割部13は、母音字であると判定された文字の次の文字が子音字であると判定された場合に、母音字であると判定された文字と子音字であると判定された文字との間を境界として、ローマ字文字列str1を分割する。
分割部13は、分割された個々の要素を更に母音要素と子音要素とに区別した上で、ローマ字文字列str1における出現順に配列することにより、ローマ字配列A(={[“B”“O”],[“J”“O”],[“R”“EE”]})を生成する。ここで、「子音要素」は一以上の子音字からなる文字列を意味し、「母音要素」は一以上の母音字からなる文字列を意味する。
一方、図5の(b)に示すように、分割部13は、英語文字列str2(“BEAUJOLAIS”)についても、上述のローマ字文字列str1に対する処理と同様に、母音字から子音字に切り替わる境界で分割することにより、「BEAU」、「JO」、「LAI」、「S」の4つの要素に分割する。分割部13は、分割された個々の要素を更に母音要素と子音要素とに区別した上で、英語文字列str2における出現順に配列することにより、英語配列B(={[“B”“EAU”],[“J”“O”],[“L”“AI”],[“S”“”]})を生成する。
ここで、本明細書で用いる配列の表記方法について説明する。図5に示すように、本明細書では、配列の個々の要素を括弧[]で示し、括弧{}内に配列を構成する各要素をカンマ区切りで並べることで配列を表現する。括弧[]内の左側部分は当該要素に含まれる子音要素を示し、括弧[]内の右側部分は当該要素に含まれる母音要素を示す。母音要素がない要素については、括弧[]内の右側部分は空文字(“”)となり、子音要素がない要素については、括弧[]内の左側部分は空文字(“”)となる。また、以降の説明において配列Xのi番目の要素をX[i]と表記する。
(分割部による処理の第2の例)
次に、図6を用いて、分割部13による処理の第2の例について説明する。図6の例では、単語取得部11により取得されるカタカナ単語w1はカタカナ表記の「バスタオル」であり、単語取得部11により取得される英単語w2はアルファベット表記の「BATHTOWEL」である。この場合、文字列取得部12は、カタカナ単語w1からローマ字文字列str1(“BASUTAORU”)を取得し、英単語w2から英語文字列str2(“BATHTOWEL”)を取得する。
図6の(a)に示すように、分割部13は、ローマ字文字列str1(“BASUTAORU”)を母音字から子音字に切り替わる境界で分割することにより、「BA」、「SU」、「TAO」、「RU」の4つの要素に分割する。分割部13は、分割された個々の要素を更に母音字と子音字とに区別した上で、ローマ字文字列str1における出現順に配列することにより、ローマ字配列A(={[“B”“A”],[“S”“U”],[“T”“AO”],[“R”“U”]})を生成する。
一方、図6の(b)に示すように、分割部13は、英語文字列str2(“BATHTOWEL”)を母音字から子音字に切り替わる境界で分割することにより、「BA」、「THTO」、「WE」、「L」の4つの要素に分割する。分割部13は、分割された個々の要素を更に母音字と子音字とに区別した上で、英語文字列str2における出現順に配列することにより、英語配列B1(={[“B”“A”],[“THT”“O”],[“W”“E”],[“L”“”]})を生成する。
ここで、英語配列B1の2番目の要素B1[2](=[“THT”“O”])には、複数の子音字(この例では、“T”、“H”、“T”の3つの子音字)からなる子音要素(“THT”)が含まれている。この場合、分割部13は、当該要素B1[2]を二以上の要素に更に分割する分割パターンに対応する配列B2〜B4を生成する。具体的には、分割部13は、要素B1[2]に含まれる子音要素“THT”について可能なすべての分割パターンに対応する英語配列B2〜B4を生成する。
図6の(b)に示すように、英語配列B2(={[“B”“A”],[“TH”“”],[“T”“O”],[“W”“E”],[“L”“”]})は、英語配列B1の要素B1[2]に含まれる子音要素“THT”を“TH”と“T”とに分割する分割パターンに対応する配列である。すなわち、英語配列B2は、英語配列B1の要素B1[2]を要素B2[2](=[“TH”“”])と要素B3[2](=[“T”“O”])とに分割することにより得られる配列である。
英語配列B3(={[“B”“A”],[“T”“”],[“HT”“O”],[“W”“E”],[“L”“”]})は、英語配列B1の要素B1[2]に含まれる子音要素“THT”を“T”と“HT”とに分割する分割パターンに対応する配列である。すなわち、英語配列B3は、英語配列B1の要素B1[2]を要素B3[2](=[“T”“”])と要素B3[3](=[“HT”“O”])とに分割することにより得られる配列である。
英語配列B4(={[“B”“A”],[“T”“”],[“H”“”],[“T”“O”],[“W”“E”],[“L”“”]})は、英語配列B1のB1[2]に含まれる子音要素“THT”を“T”と“H”と“T”とに分割する分割パターンに対応する配列である。すなわち、英語配列B4は、英語配列B1の要素B1[2]を要素B4[2](=[“T”“”])と要素B4[3](=[“H”“”])と要素B4[4](=[“T”“O”])に分割することにより得られる配列である。
決定部14は、カタカナ文字列str1に含まれる子音要素(第1の子音要素)と英語文字列str2に含まれる子音要素(第2の子音要素)とが予め定められた対応関係にあるか否かの判定を実行し、当該判定の結果に基づいてカタカナ単語w1と英単語w2とが翻字関係にあるか否かを決定する機能要素である。また、ルール情報記憶部15は、日本語のローマ字表記において用いられる子音要素と、英語のアルファベット表記において用いられる子音要素との対応関係を示す子音ルールを記憶する機能要素である。決定部14による上記判定は、ルール情報記憶部15に記憶された子音ルールを参照することにより行われる。
図7の(a)に、子音ルールの一例を示す。図7の(a)に示す子音ルールは、同じ行における左側のローマ字表記の子音要素と右側の英語表記の子音要素とが対応関係にあることを示す。この子音ルールは、例えばローマ字表記の子音要素(“B”、“BY”)と英語表記の子音要素(“V”、“VV”、“W”、“B”、“BB”、“BH”、“BJ”、“BY”)とが対応関係にあること等を示す。
ここで、「ローマ字表記の子音要素c1と英語表記の子音要素c2とが対応関係にある」とは、同一の概念を表すローマ字表記及び英語表記(すなわち、互いに翻字関係にあるローマ字表記及び英語表記)の組において、ローマ字表記の子音要素c1が英語表記においては子音要素c2で表される場合があること(或いは、英語表記の子音要素c2がローマ字表記においては子音要素c1で表される場合があること)を意味する。
このような子音ルールは、例えば以下のような処理をオペレータ等が予め手作業等によって実行することで用意される。すなわち、いくつかの英単語について、当該英単語の発音をカタカナ表記で表し、更に当該カタカナ表記をローマ字表記に変換する処理を実行する。そして、当該英単語の子音要素と当該ローマ字表記の子音要素とを同一の発音箇所に対応する部分同士で比較することにより、互いに対応関係にある子音要素の組を抽出する。一例として、英単語の「VIBRATION」と、当該英単語に対応する日本語のローマ字表記の「BAIBUREESHON」とから互いに対応関係にある子音要素の組を抽出する場合について説明する。
この場合、ローマ字表記の「BAIBUREESHON」の「BA」及び「BU」の発音箇所に対応する部分同士の比較により、ローマ字表記の子音要素「B」と英語表記の子音要素「B」、「V」とが互いに対応関係にある子音要素の組として抽出される。また、ローマ字表記の「RE」の発音箇所に対応する部分同士の比較により、ローマ字表記の子音要素「R」と英語表記の子音要素「R」とが互いに対応関係にある子音要素の組として抽出される。また、ローマ字表記の「SHO」の発音箇所に対応する部分同士の比較により、ローマ字表記の子音要素「SH」と英語表記の子音要素「T」とが互いに対応関係にある子音要素の組として抽出される。このような抽出処理を複数の英単語とそのローマ字表記とについて行うことによって、図7の(a)に示すような子音ルールが作成される。
ここで、互いに翻字関係にあるカタカナ単語及び英単語における母音要素間の対応関係は複雑でありルール化することが困難であるのに対し、子音要素間の対応関係はある程度限定された数のルールにより規定されるということが、本発明者によって見出された。このような知見に基づき、決定部14が、図7の(a)に示すような予め用意された子音ルールを参照して子音要素の対応関係を判定することにより、以下に例示する決定処理が実現される。以下に、決定部14により実行される処理の第1〜第4の例について説明する。
(決定部による処理の第1の例)
第1の例では、決定部14は、ローマ字配列Aの各要素と英語配列Bの各要素とを先頭の要素から順に要素ごとに比較する。そして、決定部14は、ローマ字配列Aの各要素に含まれる子音要素と英語配列Bの各要素に含まれる子音要素とが対応関係にあると判定された場合に、カタカナ単語w1と英単語w2とが翻字関係にあると決定する。
単語取得部11により取得されるカタカナ単語w1及び英単語w2、文字列取得部12により取得されるローマ字文字列str1及び英語文字列str2、並びに分割部13により生成されるローマ字配列A及び英語配列Bが以下に示す場合を例として、決定部14により実行される処理の第1の例について詳細に説明する。
w1=カタカナ表記の「プリムール」
w2=「PRIMEUR」
str1=「PURIMUURU」
str2=「PRIMEUR」
A={[“P”“U”],[“R”“I”],[“M”“UU”],[“R”“U”]}
B={[“P”“”],[“R”“I”],[“M”“EU”],[“R”“”]}
また、ルール情報記憶部15に記憶された子音ルールには、ローマ字表記の子音要素“P”及び英語表記の子音要素“P”の組、ローマ字表記の子音要素“R”及び英語表記の子音要素“R”の組、並びにローマ字表記の子音要素“M”及び英語表記の子音要素“M”の組がそれぞれ対応関係にあることを示すルールが少なくとも含まれているものとする。
この場合、決定部14は、まず、ローマ字配列Aの1番目の要素A[1]の子音要素“P”と英語配列Bの1番目の要素B[1]の子音要素“P”とを比較する。決定部14は、子音ルールを参照することにより、これらの子音要素が互いに対応関係にあると判定する。続いて、決定部14は、ローマ字配列Aの2番目の要素A[2]の子音要素“R”と英語配列Bの2番目の要素B[2]の子音要素“R”とを比較する。決定部14は、子音ルールを参照することにより、これらの子音要素が互いに対応関係にあると判定する。
続いて、決定部14は、ローマ字配列A及び英語配列Bのすべての要素についての比較を完了するまで、残りの要素についても同様の処理を順に実行する。これにより、決定部14は、ローマ字配列Aの3番目の要素A[3]の子音要素“M”と英語配列Bの3番目の要素B[3]の子音要素“M”とが互いに対応関係にあると判定し、ローマ字配列Aの4番目の要素A[4]の子音要素“R”と英語配列Bの4番目の要素B[4]の子音要素“R”とが互いに対応関係にあると判定する。
このようにローマ字配列Aの各要素に含まれる子音要素と英語配列Bの各要素に含まれる子音要素とが対応関係にあると判定された場合には、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にあると決定する。
一方、ローマ字配列Aの子音要素と英語配列Bの子音要素との要素ごとの比較のいずれかにおいて、子音要素同士が対応関係にあると判定されなかった場合には、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にないと決定する。例えば、ローマ字配列Aの2番目の要素A[2]の子音要素と英語配列Bの2番目の要素A[2]の子音要素との組が、互いに対応関係にある子音要素の組として子音ルールに含まれていない場合(例えば要素A[2]の子音要素が“B”であり、要素B[2]の子音要素が“T”である場合等)、決定部14は、要素A[2]の子音要素と要素B[2]の子音要素とが対応関係にないと判定する。その結果、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にないと決定する。
ここで、上述した理由により、ローマ字表記のアルファベット文字列に含まれる各子音要素と英語表記のアルファベット文字列に含まれる各子音要素とが対応関係にある場合には、カタカナ単語w1と英単語w2とが翻字関係にある可能性が高いといえる。従って、上述した決定部14の処理により、カタカナ単語w1と英単語w2とが翻字関係にあるか否かを子音要素同士の対応関係に基づいて容易に切り分けることができ、翻字対を効率良く検出することができる。
以下、上述した子音要素同士の対応関係に基づき翻字対を決定する手法の効果について、機械学習を行う場合と対比して説明する。例えば機械学習により翻字辞書データを作成する場合には、適切な翻字ルール(文字間の変換ルール)を生成するために様々な学習データによる機械学習を試行錯誤する必要がある。これは、どのような学習データを用いて機械学習をすればどのような翻字ルールが生成されるかを事前に把握することが困難であることや、単純に学習データを多くすれば精度の良い翻字ルールが生成されるわけではないこと(過学習により不適切な翻字ルールが生成されるおそれがあること)等に起因する。一方、上述した子音要素同士の対応関係に基づき翻字対を決定する手法によれば、予め定められた子音ルールに基づく判定によって比較対象となる2つの単語(カタカナ単語w1及び英単語w2)が翻字関係にあるか否かを切り分けることができる。このため、上述したような機械学習における手間(学習データの選定や機械学習により得られた翻字ルールの適否の検証等)がかからない。
(決定部による処理の第2の例)
第2の例では、決定部14は、ローマ字文字列str1に含まれる子音要素及び英語文字列str2に含まれる子音要素のうち、予め定めた条件に合致する子音要素を除外し、残される子音要素について上記判定を実行する。
カタカナ単語w1と英単語w2とが翻字関係にある場合において、一方の単語のアルファベット文字列に現れる子音要素に対応する子音要素が、他方の単語のアルファベット文字列には明示的に現れない場合がある。例えば、英語文字列str2において特定の態様で現れる子音要素に対応する子音要素は、ローマ字文字列str1には現れないことがある。そこで、決定部14は、このような特定の態様で出現する子音要素を予め定めた条件に合致するか否かの判定によって抽出し、抽出された子音要素を除外することによって、カタカナ単語w1と英単語w2とが翻字関係にあるか否かをより精度良く決定することが可能となる。
以下、図5に示す場合(カタカナ単語w1がカタカナ表記の「ボジョレー」であり、英単語w2がアルファベット表記の「BEAUJOLAIS」である場合)を例として、決定部14により実行される処理の第2の例について詳細に説明する。この場合において、ルール情報記憶部15に記憶された子音ルールには、ローマ字表記の子音要素“B”及び英語表記の子音要素“B”の組、ローマ字表記の子音要素“J”及び英語表記の子音要素“J”の組、並びにローマ字表記の子音要素“R”及び英語表記の子音要素“L”の組がそれぞれ対応関係にあることを示すルールが少なくとも含まれているものとする。
また、ルール情報記憶部15は、子音ルールとともに、特定の子音要素の除外可能な条件を示す除外ルールを記憶する。ここでは一例として、ルール情報記憶部15は、英語文字列str2に現れる子音要素“S”を除外可能な条件(出現位置が文字列の最後尾であること)を示す除外ルールを記憶しているものとする。
この場合、決定部14は、第1の例で述べた手順と同様の手順により、先頭の要素から順にローマ字配列Aの要素と英語配列Bの要素とを比較する。これにより、決定部14は、ローマ字配列Aの1番目の要素A[1]の子音要素“B”と英語配列Bの1番目の要素B[1]の子音要素“B”とが互いに対応関係にあり、ローマ字配列Aの2番目の要素A[2]の子音要素“J”と英語配列Bの2番目の要素B[2]の子音要素“J”とが互いに対応関係にあり、ローマ字配列Aの3番目の要素A[3]の子音要素“R”と英語配列Bの3番目の要素B[3]の子音要素“L”とが互いに対応関係にあると判定する。
このようにローマ字配列Aの3番目の要素A[3]と英語配列Bの3番目の要素B[3]との比較を完了した時点で、ローマ字配列Aのすべての要素についての比較が完了する。一方、英語配列Bの4番目の要素B[4](=[“S”“”])が残る。この場合、決定部14は、当該要素B[4]の子音要素を比較処理の対象から除外可能か否かを、ルール情報記憶部15に記憶された除外ルールを参照することにより判定する。
上述の通り、除外ルールには、英語文字列str2の子音要素“S”の出現位置が文字列の最後尾である場合に除外可能であることを示すルールが含まれている。また、要素B[4]は、子音要素が“S”であり、出現位置が英語文字列str2の最後尾である(すなわち、英語配列Bの最後の要素である)。従って、決定部14は、要素B[4]の子音要素が除外ルールに示される条件に合致すると判定し、当該要素B[4]を比較の対象から除外する。その結果、比較の対象から除外された要素B[4]以外のすべての要素について、ローマ字配列Aの各要素に含まれる子音要素と英語配列Bの各要素に含まれる子音要素とが対応関係にあると判定されることになる。これにより、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にあると決定する。
なお、第2の例では、除外可能な子音要素が英語配列Bの最後の要素B[4]に現れる場合を例として説明したが、除外可能な子音要素は、英語配列Bの最後の要素以外の要素に現れてもよい。除外可能な子音要素が英語配列Bの途中の要素に現れる場合については、後述する第3の例の中で説明する。
(決定部による処理の第3の例)
第3の例は、分割部13が複数の分割パターンの各々に対応するローマ字配列及び英語配列の組を生成する場合に対応する。すなわち、第3の例では、決定部14は、複数の分割パターンの各々について、ローマ字配列の各要素と英語配列の各要素とを先頭の要素から順に要素ごとに比較する。そして、決定部14は、少なくとも一つの分割パターンについてローマ字配列の各要素に含まれる子音要素と英語配列の各要素に含まれる子音要素とが対応関係にあると判定された場合に、カタカナ単語w1と英単語w2とが翻字関係にあると決定する。
以下、図6に示す場合(カタカナ単語w1がカタカナ表記の「バスタオル」であり、英単語w2が「BATHTOWEL」である場合)を例として、決定部14により実行される処理の第3の例について詳細に説明する。
この場合において、ルール情報記憶部15に記憶された子音ルールには、ローマ字表記の子音要素“B”及び英語表記の子音要素“B”の組、ローマ字表記の子音要素“S”及び英語表記の子音要素“TH”の組、ローマ字表記の子音要素“T”及び英語表記の子音要素“T”の組、並びにローマ字表記の子音要素“R”及び英語表記の子音要素“L”の組がそれぞれ対応関係にあることを示すルールが少なくとも含まれているものとする。一方、子音ルールには、ローマ字表記の子音要素“S”と英語表記の子音要素“THT”又は“T”との組が互いに対応関係にあることを示すルールは含まれていないものとする。
また、ルール情報記憶部15は、英語文字列str2に現れる子音要素“W”を除外可能な条件(子音字“W”のみを含む子音要素であること)を示す除外ルールを記憶しているものとする。一方、ルール情報記憶部15には、英語文字列str2に現れる子音要素“THT”、“HT”、“T”を除外可能な条件を示す除外ルールは記憶されていないものとする。
図6の例では、「分割部による処理の第2の例」において述べた通り、分割部13により、英単語w2から得られる英語文字列str2(“BATHTOWEL”)の4つの分割パターンの各々について、英語配列B1〜B4が生成される。従って、決定部14は、ローマ字配列Aと英語配列B1〜B4とのすべての組み合わせ(すなわち、ローマ字配列A及び英語配列B1のペア、ローマ字配列A及び英語配列B2のペア、ローマ字配列A及び英語配列B3のペア、並びにローマ字配列A及び英語配列B4のペア)について、第1の例及び第2の例で述べた処理と同様の処理を実行する。
まず、決定部14は、ローマ字配列A及び英語配列B1のペアについて、ローマ字配列Aの各要素の子音要素と英語配列B1の各要素の子音要素とが対応関係にあるか否かを判定する。この場合、決定部14は、1番目の要素同士の比較において、要素A[1]の子音要素“B”と要素B1[1]の子音要素“B”とが対応関係にあると判定する。
一方、2番目の要素同士の比較においては、決定部14は、要素A[2]の子音要素“S”と要素B1[2]の子音要素“THT”とが対応関係にないと判定する。そこで、決定部14は、ルール情報記憶部15に記憶された除外ルールを参照することにより、子音要素“THT”を除外可能であるか否かを判定する。ここで、子音要素“THT”を除外可能な条件を示すルールは除外ルールに含まれていない。従って、決定部14は、要素B1[2]を比較対象から除外できないと判定し、ローマ字配列A及び英語配列B1のペアについては、ローマ字配列Aの各要素に含まれる子音要素と英語配列B1の各要素に含まれる子音要素とが対応関係にないと判定する。
次に、決定部14は、ローマ字配列A及び英語配列B2のペアについて、ローマ字配列Aの各要素の子音要素と英語配列B2の各要素の子音要素とが対応関係にあるか否かを判定する。この場合、決定部14は、1番目の要素同士の比較において、要素A[1]の子音要素“B”と要素B2[1]の子音要素“B”とが対応関係にあると判定する。また、2番目の要素同士の比較においても、決定部14は、要素A[2]の子音要素“S”と要素B2[2]の子音要素“TH”とが対応関係にあると判定する。また、3番目の要素同士の比較においても、決定部14は、要素A[3]の子音要素“T”と要素B2[3]の子音要素“T”とが対応関係にあると判定する。
続いて、4番目の要素同士の比較において、決定部14は、要素A[4]の子音要素“R”と要素B2[4]の子音要素“W”とが対応関係にないと判定する。そこで、決定部14は、ルール情報記憶部15に記憶された除外ルールを参照することにより、子音要素“W”を除外可能であるか否かを判定する。ここで、要素B2[4]の子音要素“W”は、除外ルールに示される除外可能な条件に合致する。従って、決定部14は、要素B2[4]を比較対象から除外し、比較処理を継続する。
具体的には、決定部14は、要素B2[4]の次の要素B2[5]を要素A[4]と比較する対象として選択し、要素A[4]と要素B2[5]とを比較する。この比較において、決定部14は、要素A[4]の子音要素“R”と要素B2[5]の子音要素“L”とが対応関係にあると判定する。その結果、比較の対象から除外された要素B2[4]以外のすべての要素について、ローマ字配列Aの各要素に含まれる子音要素と英語配列B2の各要素に含まれる子音要素とが対応関係にあると判定されることになる。これにより、決定部14は、ローマ字配列A及び英語配列B2のペアについては、ローマ字配列Aの各要素に含まれる子音要素と英語配列B2の各要素に含まれる子音要素とが対応関係にあると判定する。
そして、決定部14は、少なくとも一つの分割パターン(すなわち、ローマ字配列A及び英語配列B2のペア)について、ローマ字配列Aの各要素に含まれる子音要素と英語配列Bの各要素に含まれる子音要素とが対応関係にあると判定したことをもって、カタカナ単語w1と英単語w2とが翻字関係にあると決定する。
なお、決定部14は、残りのペア(すなわちローマ字配列Aと英語配列B3,B4との各ペア)についての比較処理を実行する必要はない。ただし、ローマ字配列Aと英語配列B3,B4との各ペアについての比較をローマ字配列A及び英語配列B2のペアについての比較よりも前、或いは並列的に実行する場合には、ローマ字配列Aと英語配列B3,B4との各ペアについての比較が実行されることになる。
上記例のように、英語表記において複数の子音字からなる一つの子音要素(上記例では“THT”)は、日本語のローマ字表記において母音要素によって分断される二以上の子音要素(上記例では“S”及び“T”)に対応する場合がある。従って、上記例のように、複数の子音字からなる子音要素を更に分割するパターン(上記例では英語配列B2,B3,B4を生成する3つの分割パターン)と分割しないパターン(上記例では英語配列B1を生成する分割パターン)とを含む複数の分割パターンの各々についての判定を実行することにより、カタカナ単語w1と英単語w2とが翻字関係にあるか否かを精度良く検出することが可能となる。
(決定部による処理の第4の例)
第4の例では、決定部14は、ローマ字文字列str1に含まれる母音要素(第1の母音要素)と英語文字列str2に含まれる母音要素(第2の母音要素)との組み合わせに基づく判定を更に実行する。そして、決定部14は、当該判定の結果にも基づいてカタカナ単語w1と英単語w2とが翻字関係にあるか否かを決定する。このように、上述の第1〜第3の例において述べた子音要素同士の比較に加えて、更に母音要素同士の比較にも基づくことで、カタカナ単語w1と英単語w2とが翻字関係にあるか否かを精度良く決定することが可能となる。
以下、決定部14による第4の例の処理について詳細に説明する。決定部14は、ローマ字配列Aの各要素の母音要素と英語配列Bの各要素の母音要素との各ペアについて、予め定められた禁止ルール(母音ルール)に該当するか否かを判定する。決定部14は、このような判定を、例えば図7の(b)に示すような禁止ルールを参照することにより行うことができる。このような禁止ルールは、例えば上述したルール情報記憶部15に子音ルール及び除外ルールとともに記憶されてもよい。
図7の(b)に示す禁止ルールは、カタカナ単語w1のローマ字文字列str1における母音要素“U”に対応する英単語w2の英語文字列str2における母音要素が“A”又は“I”(ただし、“IU”又は“IEU”を除く)である場合に、カタカナ単語w1と英単語w2とが翻字関係にないことを示すルールである。このような禁止ルールは、翻字関係にあるカタカナ単語w1及び英単語w2において通常現れない母音要素同士のペアを規定することにより作成することができる。
具体例として、カタカナ単語w1がカタカナ表記の「プリムール」であり、英単語w2が「PRIMEUR」である場合における母音要素同士の比較について説明する。この場合、上述の通り、ローマ字配列A及び英語配列Bは、以下のように表される。
A={[“P”“U”],[“R”“I”],[“M”“UU”],[“R”“U”]}
B={[“P”“”],[“R”“I”],[“M”“EU”],[“R”“”]}
決定部14は、ローマ字配列Aの1番目の要素A[1]の母音要素“U”と英語配列Bの1番目の要素B[1]の母音要素“”(空文字)との組が、禁止ルールに該当するか否かを判定する。同様に、決定部14は、要素A[2]の母音要素“I”及び要素B[2]の母音要素“I”の組、要素A[3]の母音要素“UU”及び要素B[3]の母音要素“EU”の組、並びに要素A[4]の母音要素“U”及び要素B[2]の母音要素“”の組について、禁止ルールに該当するか否かを判定する。
この例では、図7の(b)に示す禁止ルールに該当する母音要素同士の組はないため、決定部14は、ローマ字文字列str1に含まれる母音要素と英語文字列str2に含まれる母音要素との組み合わせが禁止ルールに該当しないと判定する。この場合、決定部14は、子音要素同士の比較による判定の結果に基づいて、カタカナ単語w1と英単語w2とが翻字関係にあると決定する。
一方、母音要素同士の判定において、禁止ルールに該当する母音要素の組み合わせが存在する場合には、決定部14は、ローマ字文字列str1に含まれる母音要素と英語文字列str2に含まれる母音要素との組み合わせが禁止ルールに該当すると判定する。この場合、決定部14は、上述の子音要素同士の比較による判定の結果にかかわらず、カタカナ単語w1と英単語w2とが翻字関係にないと決定する。
このように、決定部14は、子音要素による判定と母音要素による判定とを組み合わせて、いずれの判定においてもカタカナ単語w1と英単語w2とが翻字関係にあると判断される場合に、カタカナ単語w1と英単語w2とが翻字関係にあると決定することができる。これにより、カタカナ単語w1と英単語w2とが翻字関係にあるか否かの決定を精度良く実行することが可能となる。
ここで、子音要素同士の比較によって対応関係にあると判定された配列(ローマ字配列又は英語配列)の要素数が多くなるほど、カタカナ単語w1と英単語w2とが翻字関係にある可能性が高くなる一方で、母音要素同士の比較において例外的に禁止ルールに該当する可能性は高くなる。従って、子音要素同士の比較によって対応関係にあると判定された要素数が多い状況においては、母音要素同士の判定で禁止ルールに該当したことをもってカタカナ単語w1と英単語w2とが翻字関係にないと決定してしまうと、実際には翻字関係にあるカタカナ単語w1と英単語w2とが翻字関係にないと誤った決定を下してしまうリスクが高くなる。
一方、子音要素同士の比較によって対応関係にあると判定された配列の要素数が少なくなるほど、カタカナ単語w1と英単語w2とが翻字関係にある可能性が低くなる一方で、母音要素同士の比較において例外的に禁止ルールに該当する可能性は低くなる。従って、子音要素同士の比較によって対応関係にあると判定された要素数が少ない状況においては、母音要素同士の判定で禁止ルールに該当したことをもってカタカナ単語w1と英単語w2とが翻字関係にないと決定することにより、実際には翻字関係にないカタカナ単語w1と英単語w2とが翻字関係であると誤った決定を下してしまう可能性を低減することが期待できる。
そこで、決定部14は、子音要素同士の比較によって対応関係にあると判定された配列の要素数が予め定めた閾値以下である場合に限って、上述の母音要素同士の判定を実行してもよい。これにより、実際には翻字関係にあるカタカナ単語w1と英単語w2とが翻字関係にないと誤った決定を下してしまうリスクを抑制しつつ、実際には翻字関係にないカタカナ単語w1と英単語w2とが翻字関係であると誤った決定を下してしまう可能性を低減することが期待できる。
出力部16は、決定部14によって翻字関係にあると決定されたカタカナ単語w1及び英単語w2を翻字対として出力する機能要素である。出力部16によって出力される翻字対は、例えば図2に示した翻字辞書データTの1レコード分のデータとして登録され、情報処理装置20によって参照される。
次に、図8及び図9を用いて、翻字処理装置10の動作(本実施形態に係る翻字処理方法を含む)について説明する。
まず、単語取得部11がカタカナ単語w1及び英単語w2を取得する(ステップS1、単語取得ステップ)。続いて、文字列取得部12がカタカナ単語w1をローマ字表記に変換することによりローマ字文字列str1を取得し、英単語w2をそのまま英語文字列str2として取得する(ステップS2、文字列取得ステップ)。
続いて、分割部13がローマ字文字列str1及び英語文字列str2のそれぞれを母音字から子音字に切り替わる境界で分割することにより、ローマ字配列A及び英語配列Bを生成する(ステップS3、分割ステップ)。ここで、上述した「分割部による処理の第2の例」のように、英語文字列str2が複数の子音字からなる子音要素を含む場合には、当該子音要素を更に分割する分割パターンに対応する英語配列(図6の例では英語配列B2〜B4)を生成してもよい。
続いて、決定部14が、分割部13により生成されたローマ字配列A及び英語配列Bに基づいて、カタカナ単語w1と英単語w2とが翻字関係にあるか否かを決定する処理を実行する(ステップS4、決定ステップ)。ここで、分割部13によって複数の分割パターンに対応する複数の英語配列(図6の例では英語配列B1〜B4)が生成される場合には、ステップS4の処理は、ローマ字配列Aと英語配列B1〜B4との各組み合わせについて実行される。ステップS4の処理の詳細については、図9を用いて後述する。
続いて、決定部14によってカタカナ単語w1と英単語w2とが翻字関係にあると判定された場合(ステップS5:YES)には、出力部16がカタカナ単語w1及び英単語w2を翻字対として出力する(ステップS6、出力ステップ)。一方、決定部14によってカタカナ単語w1と英単語w2とが翻字関係にあると判定されなかった場合(ステップS5:NO)には、カタカナ単語w1及び英単語w2の組は翻字対として出力されない。
なお、ステップS1において、単語取得部11がカタカナ単語w1及び英単語w2の一方又は両方を複数取得している場合には、ステップS2〜S5の処理をカタカナ単語w1及び英単語w2のすべての組み合わせについて実行してもよい。これにより、単語取得部11によって取得された複数のカタカナ単語w1及び英単語w2のうちから、翻字対を自動的に効率良く検出することができる。
次に、図9を用いて、図8のステップS4の処理の詳細について説明する。ここでは、上述した決定部による処理の第1〜第4の例で述べた処理を組み合わせた処理について説明する。ただし、図9に示すフローチャートは、決定部14が採用し得る処理手順の一例に過ぎない。なお、ここでは説明をわかり易くするために、上述した「決定部による処理の第3の例」と同一の例を用いて説明する。すなわち、ローマ字配列A及び英語配列Bが、以下に示すように図6に示したローマ字配列A及び英語配列B2と同一である場合を例に挙げて、決定部14の処理を説明する。なお、ルール情報記憶部15に記憶された子音ルール及び除外ルールは、上述した「決定部による処理の第3の例」と同様であるものとする。
A={[“B”“A”],[“S”“U”],[“T”“AO”],[“R”“U”]}
B={[“B”“A”],[“TH”“”],[“T”“O”],[“W”“E”][“L”“”]}
まず、決定部14は、ローマ字配列Aの各要素の子音要素と英語配列Bの各要素の子音要素との比較に先立って、内部で保持するカウンタを初期化する(ステップS101)。ここで、カウンタMは比較対象のローマ字配列Aの要素番号を示し、カウンタNは比較対象の英語配列Bの要素番号を示し、スコアSは子音要素同士の比較において対応関係にあると判定された要素数を示す。ステップS101において、カウンタM,N及びスコアSは、「M=1,N=1,S=0」に初期化される。
続いて、決定部14は、ルール情報記憶部15に記憶された子音ルールを参照することにより、ローマ字配列Aの要素A[1]の子音要素“B”と英語配列Bの要素B[1]の子音要素“B”とが対応関係にあるか否かを判定する(ステップS102)。ここで、決定部14は、要素A[1]の子音要素“B”と要素B[1]の子音要素“B”とは対応関係にあると判定する(ステップS102:YES)。そして、決定部14は、カウンタM,N及びスコアSに1を加算する(ステップS103)。これにより、カウンタM,N及びスコアSは、「M=2,N=2,S=1」に更新される。
続いて、要素A[2]及び要素B[2]が両方とも存在するため(ステップS104:YES)、決定部14は、当該比較対象の要素A[2]及び要素B[2]の子音要素同士が対応関係にあるか否かを判定する(ステップS102)。ここで、決定部14は、要素A[2]の子音要素“S”と要素B[2]の子音要素“TH”とは対応関係にあると判定する(ステップS102:YES)。そして、決定部14は、カウンタM,N及びスコアSに1を加算する(ステップS103)。これにより、カウンタM,N及びスコアSは、「M=3,N=3,S=2」に更新される。
続いて、要素A[3]及び要素B[3]が両方とも存在するため(ステップS104:YES)、決定部14は、当該比較対象の要素A[3]及び要素B[3]の子音要素同士が対応関係にあるか否かを判定する(ステップS102)。ここで、決定部14は、要素A[3]の子音要素“T”と要素B[3]の子音要素“T”とは対応関係にあると判定する(ステップS102:YES)。そして、決定部14は、カウンタM,N及びスコアSに1を加算する(ステップS103)。これにより、カウンタM,N及びスコアSは、「M=4,N=4,S=3」に更新される。
続いて、要素A[4]及び要素B[4]が両方とも存在するため(ステップS104:YES)、決定部14は、当該比較対象の要素A[4]及び要素B[4]の子音要素同士が対応関係にあるか否かを判定する(ステップS102)。ここで、決定部14は、要素A[4]の子音要素“R”と要素B[4]の子音要素“W”とは対応関係にないと判定する(ステップS102:NO)。このため、決定部14は、ルール情報記憶部15に記憶された除外ルールを参照することにより、要素B[4]の子音要素を比較対象から除外可能か否かを判定する(ステップS105)。
要素B[4]の子音要素“W”は除外ルールに示される条件に合致するため、決定部14は、要素B[4]の子音要素が除外可能であると判定する(ステップS105:YES)。そして、決定部14は、要素B[4]を比較対象から除外するためにカウンタNに1を加算し、「N=5」に更新する(ステップS106)。そして、決定部14は、次の要素B[5]が存在するか否かを判定する(ステップS107)。
ここで、要素B[5]は存在するため(ステップS107:YES)、決定部14は、ステップS102に戻って、要素A[4]の子音要素“R”と要素B[5]の子音要素“L”とが対応関係にあるか否かを判定する。ここで、決定部14は、要素A[4]の子音要素“R”と要素B[5]の子音要素“L”とは対応関係にあると判定する(ステップS102:YES)。そして、決定部14は、カウンタM,N及びスコアSに1を加算する(ステップS103)。これにより、カウンタM,N及びスコアSは、「M=5,N=6,S=4」に更新される。
続いて、要素A[5]及び要素B[6]はいずれも存在しないため(ステップS104:NO、ステップS108:NO)、決定部14は、この時点で、ローマ字配列Aの各要素の子音要素と英語配列Bの各要素の子音要素とが対応関係にあると判定する。その上で、決定部14は、ローマ字配列A及び英語配列Bについて母音要素の対応関係を判定するか否かを決定する(ステップS110)。
上述した通り、ステップS110において、決定部14は、例えばスコアSが予め定めた閾値以下である場合に母音要素の対応関係を判定すると決定することができる。ここで、仮に閾値が「3」として定められている場合、スコアS(=4)は当該閾値より大きいため、決定部14は、母音要素の対応関係を判定しないと決定する(ステップS110:NO)。この場合、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にあると決定して処理を終了する(ステップS114)。
以下、図9に示すフローチャートにおいて、上記具体例において説明できなかった部分について補足する。
ステップS105において、要素B[N]の子音要素が除外可能であると判定されなかった場合(ステップS105:NO)には、決定部14は、子音要素同士の判定に失敗した(すなわち、ローマ字配列Aの各要素の子音要素と英語配列Bの各要素の子音要素とが対応関係にない)と判定する。この場合、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にないと決定して処理を終了する(ステップS113)。
ステップS107において、要素B[N]が存在しない場合(ステップS107:NO)とは、ローマ字配列Aの要素A[M]と比較するための英語配列Bの要素が残っていない場合を意味する。この場合、少なくとも要素A[M]の子音要素に対応する子音要素が英語配列Bには存在しないこととなるため、決定部14は、子音要素同士の判定に失敗したと判定する。この場合、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にないと決定して処理を終了する(ステップS113)。
ステップS108において、要素A[M]及び要素B[N]のいずれか一方が存在する場合(ステップS108:YES)、決定部14は、ルール情報記憶部15に記憶された除外ルールを参照することにより、残存する要素の子音要素が除外可能か否かを判定する(ステップS109)。例えば、上述した「決定部による処理の第2の例」の場合(図5の例の場合)、英語配列Bの最後の要素B[4](=[“S”“”])のみが残ることになる。
このような場合において、残存する要素の子音要素が除外可能であると判定された場合(ステップS109:YES)、決定部14は、ローマ字配列Aの各要素の子音要素と英語配列Bの各要素の子音要素とが対応関係にあると判定する。その上で、決定部14は、ローマ字配列A及び英語配列Bについて母音要素の対応関係を判定するか否かを決定する(ステップS110)。
一方、残存する要素の子音要素が除外可能であると判定されなかった場合(ステップS109:NO)、残存する要素の子音要素に関する比較を実行することができないため、決定部14は、子音要素同士の判定に失敗したと判定する。すなわち、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にないと決定して処理を終了する(ステップS113)。
ステップS110において、母音要素の対応関係を判定すると決定された場合(ステップS110:YES)、決定部14は、上述の「決定部による処理の第4の例」で述べたような処理を実行する。すなわち、決定部14は、ルール情報記憶部15に記憶された禁止ルールを参照することにより、ローマ字配列Aの各要素の母音要素と英語配列Bの各要素の母音要素との各組み合わせが禁止ルールに該当するか否かを判定する(ステップS112)。ここで、いずれかの組み合わせについて禁止ルールに該当すると判定された場合(ステップS112:YES)、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にないと決定する(ステップS113)。一方、いずれの組み合わせについても禁止ルールに該当すると判定されなかった場合(ステップS112:NO)、決定部14は、カタカナ単語w1と英単語w2とが翻字関係にあると決定する(ステップS114)。
次に、図10を用いて、コンピュータ100を翻字処理装置10として機能させるための翻字処理プログラムP1について説明する。
翻字処理プログラムP1は、単語取得モジュールP11、文字列取得モジュールP12、分割モジュールP13、決定モジュールP14、及び出力モジュールP15を備える。単語取得モジュールP11、文字列取得モジュールP12、分割モジュールP13、決定モジュールP14、及び出力モジュールP15を実行することにより実現される機能はそれぞれ、上記の単語取得部11、文字列取得部12、分割部13、決定部14、及び出力部16の機能と同様である。
翻字処理プログラムP1は、例えば、CD−ROMやDVD−ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供されてもよい。或いは、翻字処理プログラムP1は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
以上説明したように、本発明の一側面に係る翻字処理装置は、所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得部と、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、当該判定の結果に基づいて第1の単語と第2の単語とが翻字関係にあるか否かを決定する決定部と、決定部によって翻字関係にあると決定された第1の単語及び第2の単語を翻字対として出力する出力部と、を備える。
本発明の一側面に係る翻字処理方法は、少なくとも一つのプロセッサにより実行される翻字処理方法であって、所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得ステップと、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、当該判定の結果に基づいて第1の単語と第2の単語とが翻字関係にあるか否かを決定する決定ステップと、決定ステップにおいて翻字関係にあると決定された第1の単語及び第2の単語を翻字対として出力する出力ステップと、を含む。
本発明の一側面に係る翻字処理プログラムは、所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得ステップと、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、当該判定の結果に基づいて第1の単語と第2の単語とが翻字関係にあるか否かを決定する決定ステップと、決定ステップにおいて翻字関係にあると決定された第1の単語及び第2の単語を翻字対として出力する出力ステップと、をコンピュータに実行させる。
このような側面においては、第1のアルファベット文字列に含まれる第1の子音要素と第2のアルファベット文字列に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定結果に基づいて、第1の言語で記述された第1の単語と第2の言語で記述された第2の単語とが翻字関係にあるか否かが決定される。このように、互いに異なる文字体系を有する言語で記述された単語同士が翻字関係にあるか否かを、それぞれの単語をアルファベット表記で表したアルファベット文字列に含まれる子音要素間の対応関係に着目して決定することにより、翻字対を効率良く検出することができる。
他の側面に係る翻字処理装置では、決定部は、第1のアルファベット文字列に含まれる第1の子音要素及び第2のアルファベット文字列に含まれる第2の子音要素のうち、予め定めた条件に合致する子音要素を除外し、残される子音要素について上記判定を実行してもよい。
第1の単語と第2の単語とが翻字関係にある場合において、一方の単語のアルファベット文字列に現れる子音要素に対応する子音要素が、他方の単語のアルファベット文字列には明示的に現れない場合がある。そこで、決定部は、このような子音要素を予め定めた条件に合致するか否かの判定によって抽出し、抽出された子音要素を除外することによって、第1の単語と第2の単語とが翻字関係にあるか否かをより精度良く決定することが可能となる。
他の側面に係る翻字処理装置では、第1のアルファベット文字列を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を第1のアルファベット文字列における出現順に配列した第1の配列を生成するとともに、第2のアルファベット文字列を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を第2のアルファベット文字列における出現順に配列した第2の配列を生成する分割部を更に備え、決定部は、第1の配列の各要素と第2の配列の各要素とを先頭の要素から順に要素ごとに比較し、第1の配列の各要素に含まれる第1の子音要素と第2の配列の各要素に含まれる第2の子音要素とが予め定められた対応関係にあると判定された場合に、第1の単語と第2の単語とが翻字関係にあると決定してもよい。
第1のアルファベット文字列に含まれる各子音要素と第2のアルファベット文字列に含まれる各子音要素とが対応関係にある場合には、第1の単語と第2の単語とが翻字関係にある可能性が高い。従って、上述した構成によれば、第1の単語と第2の単語とが翻字関係にあるか否かを、子音要素同士の対応関係に基づいて容易に切り分けることができ、翻字対を効率良く検出することができる。
他の側面に係る翻字処理装置では、分割部は、分割された個々の要素のうちに複数の子音字からなる子音要素が含まれている要素がある場合に、当該要素を二以上の要素に更に分割する場合と分割しない場合とを含む複数の分割パターンの各々に対応する第1の配列及び第2の配列を生成し、決定部は、複数の分割パターンの各々について、第1の配列の各要素と第2の配列の各要素とを先頭の要素から順に要素ごとに比較し、少なくとも一つの分割パターンについて第1の配列の各要素に含まれる第1の子音要素と第2の配列の各要素に含まれる第2の子音要素とが予め定められた対応関係にあると判定された場合に、第1の単語と第2の単語とが翻字関係にあると決定してもよい。
第1のアルファベット文字列及び第2のアルファベット文字列の一方の文字列に含まれる複数の子音字からなる一つの子音要素は、他方の文字列において母音要素によって分断される二以上の子音要素に対応する場合がある。従って、複数の子音字からなる子音要素を更に分割するパターンと分割しないパターンとを含む複数の分割パターンの各々についての判定を実行することにより、第1の単語と第2の単語とが翻字関係にあるか否かを精度良く検出することが可能となる。
他の側面に係る翻字処理装置では、決定部は、第1のアルファベット文字列に含まれる第1の母音要素と第2のアルファベット文字列に含まれる第2の母音要素との組み合わせに基づく判定を更に実行し、当該判定の結果にも基づいて第1の単語と第2の単語とが翻字関係にあるか否かを決定してもよい。
子音要素同士の比較に加えて、更に母音要素同士の比較にも基づくことで、第1の単語と第2の単語とが翻字関係にあるか否かを精度良く決定することが可能となる。
他の側面に係る翻字処理装置では、一のウェブページに含まれるカタカナ表記の単語を第1の単語として取得し、一のウェブページに含まれるアルファベット表記の単語を第2の単語として取得し、取得された第1の単語及び第2の単語を文字列取得部に受け渡す単語取得部を更に備えてもよい。
同一のウェブページに含まれるテキスト情報には、同一の概念についてカタカナ表記及びアルファベット表記のそれぞれで表した単語が含まれている可能性が高い。言い換えれば、同一のウェブページに含まれるテキスト情報には、互いに翻字関係にあるカタカナ表記の単語及びアルファベット表記の単語が含まれている可能性が高い。従って、同一のウェブページに含まれるカタカナ表記の単語及びアルファベット表記の単語を第1の単語及び第2の単語として取得することにより、翻字対を効率良く検出することが期待できる。
また、他の側面に係る翻字処理装置では、一のウェブページは、商品又はサービスをインターネット上で販売するウェブサイトにおいて商品又はサービスを提示するウェブページであり、単語取得部は、一のウェブページにおいて販売される商品又はサービスの名称の記載箇所を特定し、当該記載箇所に含まれるカタカナ表記で表された単語を第1の単語として取得し、当該記載箇所に含まれるアルファベット表記で表された単語を第2の単語として取得してもよい。
商品又はサービスをインターネット上で販売するウェブサイトにおいて商品又はサービスを提示するウェブページには、商品又はサービスの名称の記載箇所が設けられることがある。ここで、商品又はサービスの名称が、カタカナ表記で表される場合(例えば、商品又はサービスの名称が、外来語で表される物の名称、外国の地名、外国人の氏名等に基づくものである場合)には、商品又はサービスの名称のカタカナ表記及びアルファベット表記の両方が上記記載箇所に含まれている可能性が高い。従って、上記記載箇所から、翻字関係にある可能性の高いカタカナ表記で表された単語及びアルファベット表記で表された単語を第1の単語及び第2の単語として取得することで、翻字対をより効率良く検出することが期待できる。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
上記実施形態では、分割部13の処理の例として第1及び第2の例を説明したが、分割部13はこれらの例で示した処理のうちの一部を実行するように構成されてもよい。また、上記実施形態では、決定部14の処理の例として第1〜第4の例を説明したが、決定部14はこれらの例で示した処理のうちの一部を実行するように構成されてもよい。
例えば、決定部14は、第2の例の処理(子音要素の除外に関する処理)を実行する構成を備えなくともよい。この場合、図9に示したフローは、ステップS105〜S107とステップS109とを省略したフローに書き換えられる。この場合において、ステップS108の判定がYESであった場合にはステップS113に進む。
また、分割部13は、第2の例の処理(複数の分割パターンに対応する配列を生成する処理)を実行する構成を備えなくともよい。これに対応して、決定部14は、第3の例の処理(複数の分割パターンのそれぞれに対応する比較を実行する処理)を実行する構成を備えなくともよい。
また、決定部14は、第4の例の処理(母音要素の組み合わせに基づく判定処理)を実行する構成を備えなくともよい。この場合、図9に示したフローは、ステップS110〜S112を省略したフローに書き換えられる。
上記で述べたいずれの変形例においても、カタカナ単語w1と英単語w2とが翻字関係にあるか否かを、子音要素同士の対応関係に基づいて容易に切り分けることができ、翻字対を効率良く検出することができるという効果が奏される。
また、上述した通り、少なくとも一つのプロセッサにより実行される翻字処理方法の処理手順は図8及び図9の例に限定されない。例えば、翻字処理装置10は、これらの図におけるステップ(処理)の一部を省略してもよいし、別の順序で各ステップの処理を実行してもよい。また、これらの図に示されるステップの任意の2以上のステップが組み合わされてもよいし、ステップの一部が修正または削除されてもよい。或いは、翻字処理装置10は、これらの図に示される各ステップに加えて他のステップを実行してもよい。
情報処理システム1内で二つの数値の大小関係を比較する際には、「以上」及び「よりも大きい」という二つの基準のどちらを用いてもよく、「以下」及び「未満」の二つの基準のうちのどちらを用いてもよい。このような基準の選択は、二つの数値の大小関係を比較する処理についての技術的意義を変更するものではない。
1…情報処理システム、10…翻字処理装置、11…単語取得部、12…文字列取得部、13…分割部、14…決定部、15…ルール情報記憶部、16…出力部、20…情報処理装置、P1…翻字処理プログラム、P11…単語取得モジュール、P12…文字列取得モジュール、P13…分割モジュール、P14…決定モジュール、P15…出力モジュール。

Claims (9)

  1. 所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、前記第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得部と、
    前記第1のアルファベット文字列を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を前記第1のアルファベット文字列における出現順に配列した第1の配列を生成するとともに、前記第2のアルファベット文字列を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を前記第2のアルファベット文字列における出現順に配列した第2の配列を生成する分割部と、
    前記第1の配列の各要素と前記第2の配列の各要素とを先頭の要素から順に要素ごとに比較し、前記第1の配列の各要素に含まれる第1の子音要素と前記第2の配列の各要素に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、前記予め定められた対応関係にあると判定された場合に、前記第1の単語と前記第2の単語とが翻字関係にあると決定する決定部と、
    前記決定部によって翻字関係にあると決定された前記第1の単語及び前記第2の単語を翻字対として出力する出力部と、
    を備える翻字処理装置。
  2. 前記決定部は、前記第1のアルファベット文字列に含まれる前記第1の子音要素及び前記第2のアルファベット文字列に含まれる前記第2の子音要素のうち、予め定めた条件に合致する子音要素を除外し、残される子音要素について前記判定を実行する、
    請求項1に記載の翻字処理装置。
  3. 前記分割部は、前記分割された個々の要素のうちに複数の子音字からなる子音要素が含まれている要素がある場合に、当該要素を二以上の要素に更に分割する場合と分割しない場合とを含む複数の分割パターンの各々に対応する前記第1の配列及び前記第2の配列を生成し、
    前記決定部は、前記複数の分割パターンの各々について、前記第1の配列の各要素と前記第2の配列の各要素とを先頭の要素から順に要素ごとに比較し、少なくとも一つの前記分割パターンについて前記第1の配列の各要素に含まれる前記第1の子音要素と前記第2の配列の各要素に含まれる前記第2の子音要素とが前記予め定められた対応関係にあると判定された場合に、前記第1の単語と前記第2の単語とが翻字関係にあると決定する、
    請求項1又は2に記載の翻字処理装置。
  4. 前記決定部は、前記第1のアルファベット文字列に含まれる第1の母音要素と前記第2のアルファベット文字列に含まれる第2の母音要素との組み合わせに基づく判定を更に実行し、当該判定の結果にも更に基づいて前記第1の単語と前記第2の単語とが翻字関係にあるか否かを決定する、
    請求項1〜のいずれか一項に記載の翻字処理装置。
  5. 一のウェブページに含まれるカタカナ表記の単語を前記第1の単語として取得し、前記一のウェブページに含まれるアルファベット表記の単語を前記第2の単語として取得し、取得された前記第1の単語及び前記第2の単語を前記文字列取得部に受け渡す単語取得部を更に備える、
    請求項1〜のいずれか一項に記載の翻字処理装置。
  6. 前記一のウェブページは、商品又はサービスをインターネット上で販売するウェブサイトにおいて商品又はサービスを提示するウェブページであり、
    前記単語取得部は、前記一のウェブページにおいて販売される商品又はサービスの名称の記載箇所を特定し、当該記載箇所に含まれるカタカナ表記で表された単語を前記第1の単語として取得し、当該記載箇所に含まれるアルファベット表記で表された単語を前記第2の単語として取得する、
    請求項に記載の翻字処理装置。
  7. 前記出力部により出力された前記翻字対を参照することにより予め定められた処理を実行する情報処理部を更に備える、
    請求項1〜6のいずれか一項に記載の翻字処理装置。
  8. 少なくとも一つのプロセッサにより実行される翻字処理方法であって、
    所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、前記第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得ステップと、
    前記第1のアルファベット文字列を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を前記第1のアルファベット文字列における出現順に配列した第1の配列を生成するとともに、前記第2のアルファベット文字列を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を前記第2のアルファベット文字列における出現順に配列した第2の配列を生成する分割ステップと、
    前記第1の配列の各要素と前記第2の配列の各要素とを先頭の要素から順に要素ごとに比較し、前記第1の配列の各要素に含まれる第1の子音要素と前記第2の配列の各要素に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、前記予め定められた対応関係にあると判定された場合に、前記第1の単語と前記第2の単語とが翻字関係にあると決定する決定ステップと、
    前記決定ステップにおいて翻字関係にあると決定された前記第1の単語及び前記第2の単語を翻字対として出力する出力ステップと、
    を含む翻字処理方法。
  9. 所定の文字体系を有する第1の言語で記述された第1の単語をアルファベット表記で表した第1のアルファベット文字列と、前記第1の言語とは異なる文字体系を有する第2の言語で記述された第2の単語をアルファベット表記で表した第2のアルファベット文字列と、を取得する文字列取得ステップと、
    前記第1のアルファベット文字列を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を前記第1のアルファベット文字列における出現順に配列した第1の配列を生成するとともに、前記第2のアルファベット文字列を母音字から子音字に切り替わる境界で分割し、分割された個々の要素を前記第2のアルファベット文字列における出現順に配列した第2の配列を生成する分割ステップと、
    前記第1の配列の各要素と前記第2の配列の各要素とを先頭の要素から順に要素ごとに比較し、前記第1の配列の各要素に含まれる第1の子音要素と前記第2の配列の各要素に含まれる第2の子音要素とが予め定められた対応関係にあるか否かの判定を実行し、前記予め定められた対応関係にあると判定された場合に、前記第1の単語と前記第2の単語とが翻字関係にあると決定する決定ステップと、
    前記決定ステップにおいて翻字関係にあると決定された前記第1の単語及び前記第2の単語を翻字対として出力する出力ステップと、
    をコンピュータに実行させる翻字処理プログラム。
JP2016567101A 2015-06-30 2015-06-30 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 Active JP6067952B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/068828 WO2017002199A1 (ja) 2015-06-30 2015-06-30 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置

Publications (2)

Publication Number Publication Date
JP6067952B1 true JP6067952B1 (ja) 2017-01-25
JPWO2017002199A1 JPWO2017002199A1 (ja) 2017-06-29

Family

ID=57608247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016567101A Active JP6067952B1 (ja) 2015-06-30 2015-06-30 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置

Country Status (4)

Country Link
US (1) US10185710B2 (ja)
EP (1) EP3318979A4 (ja)
JP (1) JP6067952B1 (ja)
WO (1) WO2017002199A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10546063B2 (en) * 2016-12-13 2020-01-28 International Business Machines Corporation Processing of string inputs utilizing machine learning
US11195513B2 (en) * 2017-09-27 2021-12-07 International Business Machines Corporation Generating phonemes of loan words using two converters
US11120064B2 (en) * 2018-11-20 2021-09-14 Amazon Technologies, Inc. Transliteration of data records for improved data matching
US20230128406A1 (en) * 2021-10-27 2023-04-27 Bank Of America Corporation Recursive Logic Engine for Efficient Transliteration of Machine Interpretable Languages

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143514A (ja) * 1996-11-08 1998-05-29 Nippon Telegr & Teleph Corp <Ntt> 訳語対抽出装置
JP2003263429A (ja) * 2002-03-07 2003-09-19 Nippon Hoso Kyokai <Nhk> 外来語対応付け装置及びそのプログラム
WO2012121063A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 翻字処理装置、プログラム、記録媒体、及び方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810374B2 (en) * 2001-07-23 2004-10-26 Pilwon Kang Korean romanization system
US7177794B2 (en) * 2002-04-12 2007-02-13 Babu V Mani System and method for writing Indian languages using English alphabet
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
KR100739726B1 (ko) * 2005-08-30 2007-07-13 삼성전자주식회사 문자열 매칭 방법 및 시스템과 그 방법을 기록한 컴퓨터판독 가능한 기록매체
CN100483399C (zh) * 2005-10-09 2009-04-29 株式会社东芝 训练音译模型、切分统计模型的方法和装置
JP4266222B2 (ja) * 2005-11-30 2009-05-20 日本電信電話株式会社 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
US8005664B2 (en) * 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
US8275600B2 (en) * 2008-10-10 2012-09-25 Google Inc. Machine learning for transliteration
KR101113960B1 (ko) * 2010-01-14 2012-03-13 매튜 와이. 안 문자 키패드
WO2011087391A1 (en) * 2010-01-18 2011-07-21 Google Inc. Automatic transliteration of a record in a first language to a word in a second language
WO2012061588A2 (en) * 2010-11-04 2012-05-10 Legendum Pro Vita, Llc Methods and systems for transcribing or transliterating to an iconophonological orthography
CN104145235A (zh) * 2011-12-12 2014-11-12 谷歌公司 用于使用触摸式计算设备输入多字符复合辅音或元音并音译为另一种语言的技术
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
US9218341B2 (en) * 2013-08-26 2015-12-22 Lingua Next Technologies Pvt. Ltd. Method and system for language translation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143514A (ja) * 1996-11-08 1998-05-29 Nippon Telegr & Teleph Corp <Ntt> 訳語対抽出装置
JP2003263429A (ja) * 2002-03-07 2003-09-19 Nippon Hoso Kyokai <Nhk> 外来語対応付け装置及びそのプログラム
WO2012121063A1 (ja) * 2011-03-04 2012-09-13 楽天株式会社 翻字処理装置、プログラム、記録媒体、及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015031334; 松尾 義博、白井 諭: '発音情報を用いた訳語対の自動抽出' 情報処理学会研究報告 Vol.96、No.114, 19961119, p.101-106, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JPWO2017002199A1 (ja) 2017-06-29
US10185710B2 (en) 2019-01-22
WO2017002199A1 (ja) 2017-01-05
US20170228360A1 (en) 2017-08-10
EP3318979A4 (en) 2019-03-13
EP3318979A1 (en) 2018-05-09

Similar Documents

Publication Publication Date Title
JP6067952B1 (ja) 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US20190303437A1 (en) Status reporting with natural language processing risk assessment
JP2009086903A (ja) 検索サービス装置
WO2015075920A1 (ja) 入力支援装置、入力支援方法及び記録媒体
CN106250354B (zh) 处理文书的信息处理装置、信息处理方法以及程序
JP5271526B2 (ja) 商標検索システム及び商標検索サーバ
JP5897711B2 (ja) 入力支援装置、入力支援方法、及び入力支援プログラム
Jung et al. Don't read, just look: Main content extraction from web pages using visual features
JP5752073B2 (ja) データ修正装置
JP5348964B2 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP2009020567A (ja) 文書検索装置
JP6322291B2 (ja) 文書処理装置および項目抽出方法
US20230096564A1 (en) Chunking execution system, chunking execution method, and information storage medium
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
Dhanju et al. Design and implementation of Shahmukhi spell checker
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム
JP6764262B2 (ja) 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム
JP5767784B2 (ja) 情報処置装置、文字列候補確定方法及びプログラム
WO2017009900A1 (ja) 文書処理システム及び文書処理方法
US20210295032A1 (en) Information processing device and non-transitory computer readable medium
JP2006039811A (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2018055504A (ja) 情報処理装置
JP2018063597A (ja) 文字認識装置、文字認識方法、文字認識プログラム、および帳票
JP6551066B2 (ja) 電子辞書

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161108

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20161108

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20161214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161221

R150 Certificate of patent or registration of utility model

Ref document number: 6067952

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250