JP2018077850A

JP2018077850A - 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置

Info

Publication number: JP2018077850A
Application number: JP2017217389A
Authority: JP
Inventors: 王暁利; Xiaoli Wang; ▲鐘▼延; Yan Zhong; ▲張▼▲馳▼; Chi Zhang; ▲陳▼▲嵐▼; Lan Chen; 徐蔚然; Weiran Chu; 申站; zhan Shen; 姜一欣; Yixin Jiang; 武市　真知; Masatomo Takechi; 真知武市
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-11-10
Filing date: 2017-11-10
Publication date: 2018-05-17
Anticipated expiration: 2037-11-10
Also published as: CN108073565A; JP7120751B2

Abstract

【課題】単語正規化方法、単語正規化装置及び機械翻訳方法と機械翻訳装置を提供する。【解決手段】単語正規化方法は、正規化すべきターゲット単語を取得することと、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果の第一の候補単語グループとして決定することと、単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、類似度により各候補単語に対してソーティングを行うことと、ソーティングの結果によりターゲット単語の正規化結果を決定することを含む。単語正規化技術と機械翻訳技術は、監督なし方式を採用して非正規化単語を意味により正規化するため、意味変形の非正規化単語についてその正規化結果が得られ、意味変形の非正規化単語が含まれる文の機械翻訳の性能が改善される。【選択図】図１

Description

本開示は全体的には自然言語処理に関し、具体的には非正規化単語の単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置に関する。

少なくとも以上の問題について本開示を提案する。

本開示のある実施例によると、正規化すべきターゲット単語を取得することと、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、ソーティングの結果に基づいてターゲット単語の正規化結果を決定することを含む、単語正規化方法を提供する。

本開示の別の実施例によると、正規化すべきターゲット単語を取得するように配置される取得部と、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語をターゲット単語の正規化結果を表現する第一の候補単語グループとして決定するように配置される候補単語決定部と、基幹単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、ソーティングの結果に基づいてターゲット単語の正規化結果を決定するように配置される正規化部とを備える、単語正規化装置を提供する。

本開示の別の実施例によると、プロセッサと、メモリと、前記プロセッサによって実行されるとき、正規化すべきターゲット単語を取得することと、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、ソーティングの結果に基づいてターゲット単語の正規化結果を決定することとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、単語正規化装置を提供する。

本開示の別の実施例によると、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うことと、各候補単語のうち、類似度が最も高いものの信頼性を決定することと、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを含む、単語正規化方法を提供する。

本開示の別の実施例によると、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得するように配置される取得部と、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、各候補単語のうち、類似度が最も高いものの信頼性を決定するように配置される信頼性決定部と、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とするように配置される正規化部とを含む、単語正規化装置を提供する。

本開示の別の実施例によると、プロセッサと、メモリと、前記プロセッサによって実行されるとき、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うことと、各候補単語のうち、類似度が最も高いものの信頼性を決定することと、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、単語正規化装置を提供する。

本開示の別の実施例によると、ソース言語における非正規化単語を検出することと、当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うことと、各候補単語のうち、類似度が最も高いものの信頼性を決定することと、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳することとを含む、機械翻訳方法を提供する。

本開示の別の実施例によると、ソース言語における非正規化単語を検出するように配置される検出部と、当該ターゲット単語の正規化結果を表現する候補単語セットを取得するように配置される候補単語取得部と、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、各候補単語のうち、類似度が最も高いものの信頼性を決定するように配置される信頼性決定部と、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳するように配置される翻訳部とを備える、機械翻訳装置を提供する。

本開示の別の実施例によると、プロセッサと、メモリと、前記プロセッサによって実行されるとき、ソース言語における非正規化単語を検出することと、当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うことと、各候補単語のうち、類似度が最も高いものの信頼性を決定することと、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳することとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、機械翻訳方法を提供する。

本開示実施例による単語正規化技術及び機械翻訳技術は、監督なし方式を採用して非正規化単語の意味により非正規化単語を正規化する。よって意味変形の非正規化単語についてその正規化結果が得られ、それに意味変形の非正規化単語が含まる文の機械翻訳の性能が改善される。一方、本開示実施例による単語正規化技術及び機械翻訳技術は得られた正規化単語に対してその信頼性を評価し、信頼性により正規化単語が納得できるかどうかを決定する。よって正規化単語の正確性が保証される。

本開示の目的、特徴、および利点は、以下の実施例に対する詳細な説明と添付図面とによって、より明白となる。本発明の更なる理解のために図面を提供する。図面は明細書の一部となり、本開示実施例と共に本開示を解釈するために用いられ、本開示を限定するものではない。図面において、同じ参照符号は、通常、同一部品又はステップを表す。
図１は、本開示第一実施例による単語正規化方法のフローチャートを模式的に示す図である。図２は百度百科（baike.baidu.com）によって非正規化単語を検索して得られたウェブページを示す。図３は百度知道（zhidao.baidu.com）によって非正規化単語を検索して得られたウェブページを示す。図４は、本開示第一実施例による単語正規化方法において第一の候補単語グループのうち類似度が最も高いものの信頼性を決定する方法のフローチャートを示す。図５は、本開示第一実施例による単語正規化方法により第一の候補単語グループにおける各候補単語について決定した候補単語スコア、以及当該候補単語スコアに基づいて各候補単語に対してソーティングを行った結果を例示する。図６は、本開示第二実施例による単語正規化方法のフローチャートを模式的に示す図である。図７は、本開示第二実施例による単語正規化方法において第二の候補単語グループを決定する方法のフローチャートを示す。図８は、本開示第三実施例による単語正規化方法のフローチャートを模式的に示す図である。図９は、本発明のある実施例による単語正規化装置の機能配置ブロック図を示す。図１０は、本発明の他の実施例による単語正規化装置の機能配置ブロック図を示す。図１１は、本開示実施例による単語正規化装置を実現するために用いられる算出装置の模式的なブロック図を示す。

以下、本開示の目的、技術案、および利点が一層明らかとなるように、図面を参照しながら、本開示による例示的な実施例を詳細に説明する。ここで説明する実施例は本開示の一部の実施例であり、本開示の全ての実施例でないことは、明らかであろう。本開示はここで説明する例示的な実施例に限定されないことは理解すべきである。本開示で説明する実施例に基づいて、当業者が創造的労働なしで得られる全ての他の実施例は本開示の保護範囲内にある。

<第一実施例>
以下、図１を参照しながら、本開示第一実施例による単語正規化方法を詳細に説明する。図１は、この実施例の単語正規化方法を模式的に示すフローチャートである。

図１に示すように、ステップＳ１１０において、正規化すべきターゲット単語（target word）を取得する。

様々な方法で正規化すべきターゲット単語を取得できる。例えば、ユーザによって直接入力してもよいし、あるいは、既存の新単語検出方法などによって当該正規化すべきターゲット単語が含まれる文から当該ターゲット単語を検出してもよい。

ステップＳ１２０において、ネットワークサーチエンジンを利用し当該ターゲット単語を解釈するための文（sentence）を検索し、前述文から当該ターゲット単語に関する単語を、当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定する。

当該ステップにおいて、既存のネットワークサーチエンジンを利用して当該ターゲット単語に関するウェブページを検索し、その後に検索したウェブページにおける各文を予め定義したテンプレートとマッチングし、テンプレートとマッチングした文を当該ターゲット単語を解釈するための文とすることができる。前述予め定義したテンプレートは、ターゲット単語を解釈・定義するためのテンプレート文型（sentence pattern）であり、経験によって予め設定でき、また様々なテンプレートを定義できる。検索したウェブページにおける文が各テンプレートのうち少なくとも一つとマッチングすれば、当該文はターゲット単語を解釈する文と見なす。理解しやすくなるために、以下、ネットワークサーチエンジンは百度知道（zhidao.baidu.com）と百度百科（baike.baidu.com）である場合を例として前述処理を説明する。

このように、ターゲット単語を解釈する文を検索できた後、さらに文におけるターゲット単語に関する単語を、ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定する。前述ターゲット単語に関する単語は、様々な適当な方式で決定することができる。

単語分割によって得られた単語はターゲット単語をよく解釈できないのに、分割して得られた単語を熟語（phrase）として拡張すると、ターゲット単語をよく解釈できる場合がある。例えば、ターゲット単語である「熟女」について、解釈するための文が「意思是成熟的女性」（成熟した女性という意味）と検索できて、単語分割によって「女性」と得られ、ただ「女性」だと実は「熟女」をよく解釈できず、「成熟的女性」のほうがもっと「熟女」の意味に当たる。また、ある分割によって得られた単語の前に否定修飾「不」（しない、ではない）、「没」（ではない）等があると、当該否定修飾と分割によって得られた単語を組み合わせたほうが、通常もっと中国語の表現に当たる。前述場合を考えると、一実施形態では、単語分割によって文を単語に分割して、そのうちターゲット単語に関する単語を決定した後、依存関係及び/又は否定修飾に基づいて決定できたターゲット単語に関する単語のうち少なくとも一つの単語を拡張し、その後、拡張した単語、拡張した単語以外のその他ターゲット単語に関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとする。依存関係は、文における各要素間の語義的修飾関係を説明するものであり、この実施形態では、依存関係は、限定／形容詞と中心詞との関係、動詞と目的語との関係、副詞と中心詞の構造のいずれか一つまたはそれらの組み合わせを用いてよい。

ステップＳ１３０において、単語ベクトルに基づいて、ターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行う。

いずれの単語でも単語ベクトルで表すことができ、二つの単語ベクトル間の距離が近いほど、それらが表す二つの単語が類似することは、当該分野において公知である。このステップにおいて、単語ベクトルによってターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、即ち各候補単語とターゲット単語との類似度合いを決定し、その後類似度が高いか低いかにより各々の候補単語に対してソーティングを行う。

具体的には、このステップにおいて、ターゲット単語と各候補単語についてそれぞれが対応する単語ベクトルを決定し、その後ターゲット単語の単語ベクトルと各候補単語の単語ベクトルとの間の類似度（例えば、コサイン距離）をターゲット単語と各候補単語との類似度として算出することができる。

ターゲット単語と各候補単語についてそれぞれが対応する単語ベクトルを決定するとき、一実施形態では、word embedding等のような既存ツールによってターゲット単語と各候補単語それぞれが対応する単語ベクトルを直接決定できる。別の実施形態では、ターゲット単語と各候補単語をともに文字に分解し、その後既存のツールによって各文字に対応する文字ベクトルを決定し、最後に単語に含まれる各文字の文字ベクトルを加算するによって、ターゲット単語と各候補単語の単語ベクトルを得られる。ある文字に対応する文字ベクトルを決定できない場合、対応する文字ベクトルをゼロに設定すればよい。

ステップＳ１４０において、ソーティングの結果に基づいて、ターゲット単語の正規化結果を決定する。

このステップにおいて、所定のルールに従ってソーティングの結果に基づいて、ターゲット単語の正規化結果を決定できる。例えば、ある基本的な実施形態では、ソーティングによって得られた類似度が最も高い候補単語を直接ターゲット単語の正規化結果とする。

一実施形態では、第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出できる。当該信頼性が第一の所定閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とする。逆の場合、類似度が最も高い候補単語であってもターゲット単語をよく表現できないとみなし、即ちターゲット単語について利用できる正規化結果が得られない。前述第一の所定閾値は必要に応じて設定でき、例えば、一例として、その値が０.４５である。

以下、図４を参照しながら、第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を決定する処理を説明する。

図４に示すように、ステップＳ１４０１において、第一の候補単語グループにおける各候補単語について、候補単語スコアを算出する。

当該ステップにおいて、様々な適当な方式を採用して各候補単語の候補単語スコアを決定できる。例えば、一例として、発生頻度が高いほど及び／又はテンプレートが良いほど、候補単語の候補単語スコアが高くなるように、当該候補単語の発生頻度及び当該候補単語に関するテンプレートの良さに基づいて当該候補単語の候補単語スコアを決定できる。具体的には、この一例に従い、各候補単語について、当該候補単語が検索できたターゲット単語を解釈するための文における発生頻度を算出し、前述ターゲット単語を解釈するための文において当該候補単語が含まれる各文を決定し、予め定義したテンプレートのうち前述各文とそれぞれマッチングする各テンプレートを決定し、各テンプレートそれぞれの予定スコアを決定し、そして最も高い予定スコアと発生頻度に基づいて当該候補単語の候補単語スコアを決定する。

ステップＳ１４０２において、候補単語スコアに基づいて、第一の候補単語グループにおける各候補単語に対してソーティングを行う。

例えば、図５は、ステップＳ１４０１−Ｓ１４０２における例示的な処理によって、「狗血」の各候補単語について候補単語スコアを決定し、当該候補単語スコアに基づいてソーティングを行った結果を例示する。

ステップＳ１４０３において、各隣接する候補単語ペア間の候補単語スコアの差を算出する。

ステップＳ１４０４において、少なくとも最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数に基づき、トレーニングされた分類器を利用して当該類似度が最も高い候補単語の信頼性を算出する。

当該ステップにおいて、最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数を分類器的パラメータとして利用するが、これが一例に過ぎず、その他の変数を分類器のパラメータとして選択してもよいことは、理解すべきである。例えば、この３つの変数以外、二番目に高い候補単語スコアを分類器のパラメータとして追加してもよい。

また、当該ステップに用いる分類器を限定せず、ロジスティック回帰分類器等のような様々なトレーニングされた分類器を採用して類似度が最も高い候補単語の信頼性を算出すればよい。

以上、図４を参照して、本開示第一実施例による第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を決定する処理を説明した。これが一例に過ぎず、本発明はそれに限定せず、具体的な場合によってその他方式により類似度が最も高い候補単語の信頼性を決定すればよいことは、理解すべきである。

以上、本開示第一実施例による単語正規化方法を詳細に説明した。当該方法において、監督なし方式を採用して非正規化単語の意味に基づいて非正規化単語を正規化するため、意味変形の非正規化単語についてその正規化結果を得られる。

<第二実施例>
前述した第一実施例において、非正規化単語の意味のみに基づいて非正規化単語を正規化するため、意味変形の非正規化単語についてその正規化結果を得られるのに対して、本実施例において、非正規化単語の意味を考慮する以外、非正規化単語の発音も考慮するため、発音異形の非正規化単語と意味変形の非正規化単語両方についてその正規化結果を得られる。以下の説明において、本実施例の第一実施例と異なる部分のみを詳細に説明し、第一実施例と同じ部分については説明を省略する。

以下、図６を参照して、本実施例による単語正規化方法を詳細に説明する。図６は、本開示第二実施例による単語正規化方法のフローチャートを模式的に示図である。

図６に示すように、ステップＳ６１０において、正規化すべきターゲット単語を取得する。ステップＳ６２０において、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を、当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定する。ステップＳ６３０において、単語ベクトルに基づいて、ターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行う。

前述ステップＳ６１０−Ｓ６３０における処理は、それぞれ第一実施例のステップＳ１１０−Ｓ１３０における処理と同じであるため、ここで詳細な説明を省略する。

図６に戻り、ステップＳ６４０において、ターゲット単語のピンインとの編集距離及びコーパス（corpus）における発生頻度に基づき、当該ターゲット単語の正規化結果を表現する第二の候補単語グループを決定する。以下、図７を参照しながら、当該ステップにおける処理を説明する。

図７に示すように、ステップＳ６４０１において、ターゲット単語のピンインを決定する。

ステップＳ６４０２において、ピンインと前述ターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定する。

編集距離とは、二つの文字列間で一方を他方へ転換するには必要する最少の編集操作回数である。通常、編集距離が小さいほど、二つの文字列の類似度が高い。当該ステップにおいて、ピンインを文字列と見なし、ある辞書における各単語のピンインとターゲット単語のピンインとの編集距離を順次算出することによって、ピンインとターゲット単語のピンインとの編集距離が予め設定したバックアップ閾値より小さい各バックアップ単語は得られる。編集距離をどのように算出するかについては、当該分野において公知であり、ここで詳細な説明を省略する。また、本実施例は辞書を限定せず、必要に応じていかなる適当な辞書を採用すればよい。本実施例はバックアップ閾値の値についても限定せず、必要に応じて適当の値を設定すればよい。

ステップＳ６４０３において、各バックアップ単語についてそれがコーパスにおける発生頻度を算出する。

この実施例では、コーパスを限定せず、必要に応じて既存の様々なコーパスを採用すればよい。コーパスを選定した後、各バックアップ単語がその中に出る回数を当該バックアップ単語の発生頻度として決定できる。

ステップＳ６４０４において、編集距離と発生頻度に基づいて各バックアップ単語の候補単語スコアを決定する。

当該ステップにおいて、バックアップ単語の編集距離が小さいほど及び／又は発生頻度が小さいほど、その候補単語スコアが高いであること限り、様々な適当の方式を採用し、編集距離と発生頻度に基づいてバックアップ単語の候補単語スコアを決定できる。例えば、一例として、候補単語スコア=(単語頻度/最大単語頻度)×n +[１-(編集距離/(文字長さ×ａ))]×ｍ、ただし、最大単語頻度は各バックアップ単語の発生頻度の最大値を示し、文字長さはバックアップ単語がいくつかの文字で構成される（例えば、「童鞋」の文字長さは２である）かを示し、編集距離は当該バックアップ単語とターゲット単語間の編集距離を示し、単語頻度は当該バックアップ単語の発生頻度を示し、ｎとｍは加重値であり、ａは経験によって決定する調整因子であり、例えばａは編集距離の最大値４.１であればよい。

ステップＳ６４０５において、候補単語スコアが候補単語閾値より大きいバックアップ単語を当該ターゲット単語の正規化結果を表現する第二の候補単語グループとする。

この実施例は候補単語閾値の値を限定せず、必要に応じて適当の値に設定すればよい。当該ステップにおいて、候補単語スコアを候補単語閾値と比較することによって、候補単語スコアが候補単語閾値より大きい各バックアップ単語を第二の候補単語グループとして決定できる。

以上、図７を参照しながら、この実施例によるターゲット単語のピンインとの編集距離及びコーパスにおける発生頻度に基づいて第二の候補単語グループを決定する処理について説明した。以上の説明は例示的な基本処理方式であることは理解されるであろう。ステップＳ６４０２において、ピンインとターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定した後、各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより当該バックアップ単語とターゲット単語との編集距離を調整することもできる。具体的には、前述したように、ステップＳ６４０２において、当該分野において公知である技術を採用して編集距離を算出する。当該分野の現在典型的な技術によると、二つの音節の編集距離を算出するとき、二つの音節が同じであるかどうかのみによって算出する。例えば、「ｓ」と「ｓ」のような二つの同じ音節の場合、その編集距離が０であるが、「ｘ」と「ｓｈ」のような二つの異なる音節の場合、その編集距離が１である。しかし、「ｓ」と「ｓｈ」、「ｅｎ」と「ｅｎｇ」などのような類似する音節間の編集距離は、二つの違いかつ類似しない音節間の編集距離より小さいであるべきことは、理解できるであろう。

前述認識に基づき、一実施形態では、バックアップ単語における各音節をターゲット単語における対応する音節とそれぞれ比較し、当該バックアップ単語においてＮ個の音節がターゲット単語におけるＮ個の対応する音節と異なるが類似すれば、当該バックアップ単語とターゲット単語との編集距離をＮ個の第一距離で減少し、ただし、Ｎは自然数である。当該実施形態では、経験等により予めどの音節が類似するかを設定しておくことができる。

別の一実施形態では、当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節に類似すれば、当該バックアップ単語とターゲット単語との編集距離を第二距離で減少する。

別の一実施形態では、当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節と異なりかつ類似しない場合、当該バックアップ単語とターゲット単語との編集距離を第三距離で増加する。

図６に戻り、ステップＳ６５０において、単語ベクトルに基づきターゲット単語と第二の候補単語グループにおける各候補単語との類似度を算出し、そのうち、ターゲット単語との類似度が最も高い候補単語を決定する。

当該ステップにおける処理が第一実施例のステップＳ１３０における処理と類似するため、ここでは詳細な説明を省略する。

ステップＳ６６０において、ソーティングの結果に基づいてターゲット単語の正規化結果を決定する。

当該ステップにおいて、所定のルールに従い、ソーティングの結果に基づいてターゲット単語の正規化結果を決定できる。例えば、ある基本的な実施形態では、ステップＳ６３０において決定した第一の候補単語グループにおける類似度が最も高い候補単語（以下、単に「第一の好適単語」と称する）とステップＳ６５０において決定した第二の候補単語グループにおける類似度が最も高い候補単語（以下、単に「第二の好適単語」と称する）の類似度を比較し、両方のうち類似度がより高いものをターゲット単語の正規化結果とする。

一実施形態では、第二の好適単語の類似度が第一の好適単語より高くない場合、第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて第一の好適単語の信頼性を決定し、当該信頼性が第一の所定閾値より大きい場合、第一の好適単語をターゲット単語の正規化結果とする。図４を参照しながら第一の好適単語の信頼性を決定する処理を既に説明したため、ここで省略する。第一の好適単語は第二の候補単語グループにおいても存在する場合、当該第一の好適単語の信頼性を直接最大値としてもよい。

一実施形態では、第二の好適単語の類似度が第一の好適単語より高い場合、第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて第二の好適単語の信頼性を算出し、当該信頼性が第二の所定閾値より大きい場合、第二の好適単語をターゲット単語の正規化結果とする。当該実施形態では、ステップＳ６４０４において算出した第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて、様々な適当な方式を採用して第二の好適単語の信頼性を算出する。例えば、一例として、候補単語スコアに基づいて第二の候補単語グループにおける各候補単語に対してソーティングを行い、その後Ｍ個（Ｍは自然数であり、Ｍ≦第二の候補単語グループの数）の最も高いスコアを加算した和を第二候補単語の数で除算し、第二の好適単語の信頼性とする。第二の好適単語は第一の候補単語グループにおいても存在する場合、当該第二の好適単語の信頼性を直接最大値としてもよい。前述第二の所定閾値は必要に応じて設定すればよく、この実施例はこれを限定しない。

以上、本開示第二実施例による単語正規化方法を詳細に説明した。当該方法は非正規化単語の発音と、非正規化単語の意味両方を考慮するため、発音変形の非正規化単語と意味変形の非正規化単語両方についても、その正規化結果は得られる。また、当該方法では、非正規化単語の発音を考慮する際に、音節が類似するか否かにより、各バックアップ単語とターゲット単語との編集距離を調整するため、発音変形場合の非正規化単語の正規化結果は改善される。

注意されたいのは、以上でステップＳ６１０からＳ６６０までの順番でこの実施例による単語正規化方法を説明したが、これが一例に過ぎず、前述ステップＳ６１０からＳ６６０までは、必ずしも説明した順番で実行する必要がない。例えば、ステップＳ６４０、Ｓ６５０を順次実行した後にステップＳ６２０、Ｓ６３０を順次実行してもよく、あるいは、ステップＳ６２０、Ｓ６３０を実行すると同時にステップＳ６４０、Ｓ６５０を並行に実行してもよい。

<第三実施例>
前述の実施例において、非正規化単語の意味と発音を考慮して非正規化単語の正規化結果を表現する候補単語を決定する。この実施例による単語正規化方法において、非正規化単語の正規化結果を表現する候補単語を決定する方法を限定しない。候補単語を決定した後、その信頼性を評価し、信頼性に基づいて候補単語は納得できるかどうかを決定する。

以下、図８を参照しながら、本開示第三実施例による単語正規化方法を説明する。図８は、本開示第三実施例による単語正規化方法のフローチャートを模式的に示す図である。

図８に示すように、ステップＳ８１０において、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得する。

様々な方式によって正規化すべきターゲット単語を取得でき、例えばユーザによって直接入力してもよいし、あるいは、既存の新単語検出方法等によって当該正規化すべきターゲット単語が含まれる文から当該ターゲット単語を検出してもよい。

前述したように、この実施例による単語正規化方法において、ターゲット単語の正規化結果を表現する候補単語を取得する方法を限定しない。例えば、ここで第一実施例で説明した方式を採用してターゲット単語の意味に基づいて候補単語セットを取得してもよいし、第二実施例で説明した方式を採用してターゲット単語の発音と意味両方に基づいて候補単語セットを取得してもよいし、ターゲット単語の発音だけに基づいて候補単語セットを取得してもよいし、あるいは、当該分野のいかなる適当な方法によって候補単語セットを取得してもよい。

ステップＳ８２０において、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行う。

当該ステップの処理は第一実施例ステップＳ１３０における処理と同じであるため、ここで説明を省略する。

ステップＳ８３０において、各候補単語のうち、類似度が最も高いものの信頼性を決定する。

当該ステップにおいて、様々な適当な方式を採用して各候補単語のうち、類似度が最も高いものの信頼性を決定できる。例えば、ターゲット単語の意味に基づいて取得した候補単語セット及び/又はターゲット単語のピンインに基づいて取得した候補単語セットについて、本発明第一実施例と第二実施例で説明したように当該類似度が最も高い候補単語の信頼性を決定でき、ここで説明を省略する。

ステップＳ８４０において、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とする。

当該類似度が最も高い好適単語の信頼性が予め設定した第三閾値より大きいと決定すれば、当該候補単語はターゲット単語をよく表現できると見なし、よって当該候補単語を非正規化のターゲット単語の正規化結果とすればよい。逆に、ターゲット単語について納得できる正規化結果はできていないと見なす。前述第三閾値は、経験と必要に応じて設定すればよく、例えば一例として、その値は０.６である。

以上、本開示第三実施例による単語正規化方法を詳細に説明した。本開示第三実施例による単語正規化方法は、非正規化単語の正規化結果を表現する候補単語を決定する方法を限定しない。候補単語を決定した後、その信頼性を評価し、信頼性に基づいて候補単語は納得かどうかを決定し、よって正規化単語の正確性を保証する。

一方、この実施例による単語正規化方法は機械翻訳に適用されることができる。より明確的には、この実施例は、実は、(i)ソース言語における非正規化単語を検出するステップと、(ii)当該ターゲット単語の正規化結果を表現する候補単語セットを取得するステップと、(iii)単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うステップと、(iv)各候補単語のうち、類似度が最も高いものの信頼性を決定するステップと、(v)当該信頼性は第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、これをターゲット言語に翻訳するステップ、を含む機械翻訳方法を提供する。前述ステップ(i)において、既存の新単語検出方法等によって非正規化単語が含まれる文から当該非正規化単語を検出すればよい。ステップ(v)において、様々な通常な機械翻訳方法を採用して正規化後の単語をターゲット言語に翻訳すればよい。残りの各ステップ(ii)-(iv)における処理はこの実施例による単語正規化方法における各対応するステップの処理と類似するため、ここでは説明を省略する。

<単語正規化装置の全体配置>
図９は本発明の一実施例による単語正規化装置９００の機能配置ブロック図を示す。

図９に示すように、単語正規化装置９００は、取得部９１０、候補単語決定部９２０、類似度ソーティング部９３０、及び正規化部９４０を備える。前述各部品の具体的な機能と操作は、前述した図１−７の説明と基本的に同じであり、重複を回避するために、以下、前述装置について簡略的な説明のみを行い、同じ部品について詳細的な説明を省略する。

取得部９１０は、正規化すべきターゲット単語を取得するように配置される。取得部９１０は、様々な方式によって正規化すべきターゲット単語を取得でき、例えばユーザによって直接入力してもよいし、あるいは、既存の新単語検出方法等によって当該正規化すべきターゲット単語が含まれる文から当該ターゲット単語を検出してもよい。

候補単語決定部９２０は、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定するように配置される。

具体的には、候補単語決定部９２０は、既存のネットワークサーチエンジンを利用して当該ターゲット単語に関するウェブページを検索し、その後検索したウェブページにおける各文を予め定義したテンプレートとマッチングし、テンプレートとマッチングした文を当該ターゲット単語を解釈するための文とすることができる。前述予め定義したテンプレートは、ターゲット単語を解釈・定義するためのテンプレート文型であり、経験により予め設定でき、複数のテンプレートを定義してもよい。候補単語決定部９２０は、検索したウェブページにおける文が各テンプレートのうちの少なくとも一つとマッチングすれば、当該文はターゲット単語を解釈するための文と見なす。

前述のようにターゲット単語を解釈するための文を検索した後、候補単語決定部９２０はさらに様々な適当な方式により文におけるターゲット単語に関する単語をターゲット単語の正規化結果を表現する第一の候補単語グループとして決定する。例えば、ある基本的な実施形態では、候補単語決定部９２０は、単語分割によって文を単語に分割し、当該文とマッチングするテンプレートの統語構造によって、分割して得た単語のうち、ターゲット単語に関する単語を決定し、その後、決定したターゲット単語に関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとする。一実施形態では、候補単語決定部９２０は、単語分割によって文を単語に分割し、そのうちターゲット単語に関する単語を決定し、その後依存関係及び/又は否定修飾に基づいて決定したターゲット単語に関する単語における少なくとも一つ単語を拡張し、その後拡張した単語、拡張した単語以外のほかの関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとする。

類似度ソーティング部９３０は、単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語の類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される。

いずれの単語は単語ベクトルで表現でき、二つの単語ベクトル間の距離が近いほど、それらが代表する二つの単語が類似することは、当該分野において公知である。類似度ソーティング部９３０は、単語ベクトルによって第一の候補単語グループにおける各候補単語とターゲット単語との類似度を算出し、その後類似度が高いか低いかにより、各候補単語に対してソーティングを行う。具体的には、類似度ソーティング部９３０は、ターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定でき、その後ターゲット単語の単語ベクトルと各候補単語の単語ベクトル間の類似度をターゲット単語と各候補単語との類似度として算出することができる。ターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定するとき、一実施形態では、類似度ソーティング部９３０は、word embedding等の既存ツールによってターゲット単語と各候補単語それぞれが対応する単語ベクトルを直接決定できる。他の実施形態では、類似度ソーティング部９３０は、ターゲット単語と各候補単語を文字に分解し、その後既存のツールによって各文字に対応する文字ベクトルを決定し、最後に単語に含まれる各文字の文字ベクトルを加算し、ターゲット単語と各候補単語との単語ベクトルを得られる。ある文字に対応する文字ベクトルは決定できない場合、対応する文字ベクトルをゼロに設定すればよい。

正規化部９４０は、ソーティングの結果によりターゲット単語の正規化結果を決定するように配置される。

正規化部９４０は、所定のルールに従い、ソーティングの結果によりターゲット単語の正規化結果を決定すればよい。例えば、ある基本的な実施形態では、正規化部９４０は、ソーティングした類似度が最も高い候補単語を直接ターゲット単語の正規化結果とすればよい。

一実施形態では、正規化部９４０は、第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出し、当該信頼性は第一の所定閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすればよい。逆に、類似度が最も高い候補単語であっても、ターゲット単語をよく表現できないと見なす、即ち、ターゲット単語について利用できる正規化結果はできていない。前述第一の所定閾値は必要に応じて設定すればよく、例えば一例として、その値は０.４５である。当該実施形態では、正規化部９４０は第一の採点手段９４０１(図示せず)、ソーティング手段９４０２(図示せず)、隣接差算出手段９４０３(図示せず)、及び分類器手段９４０４(図示せず)を備える。

第一の採点手段９４０１は、第一の候補単語グループにおける各候補単語について、候補単語スコアを算出するように配置される。当該第一の採点手段９４０１は、様々な適当な方式を採用して各候補単語の候補単語スコアを決定する。例えば、一例として、当該候補単語の発生頻度及び当該候補単語に関するテンプレートの良さにより、発生頻度が高いほど及び／又はテンプレートが良いほど、候補単語の候補単語スコアが高くなるよう、当該候補単語の候補単語スコアを決定すればよい。具体的には、この一例に従い、各候補単語について、当該候補単語が検索したターゲット単語を解釈するための文における発生頻度を算出し；前述ターゲット単語を解釈するための文のうち、当該候補単語が含まれる各文を決定し；予め定義したテンプレートのうち、それぞれ前述各文とマッチングする各テンプレートを決定し；各テンプレートそれぞれの所定スコアを決定し；及び最も高い所定スコアと発生頻度に基づいて当該候補単語の候補単語スコアを決定する。
ソーティング手段９４０２は、候補単語スコアに基づいて第一の候補単語グループにおける各候補単語に対してソーティングを行うように配置される。

隣接差算出手段９４０３は、各隣接する候補単語ペア間の候補単語スコアの差を算出ように配置される。

分類器手段９４０４は、少なくとも最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数に基づいて、トレーニングされた分類器を利用して当該類似度が最も高い候補単語の信頼性を算出するように配置される。

ここで、分類器手段９４０４は最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数を分類器のパラメータとして利用するが、これは一例に過ぎず、他の変数を分類器のパラメータとして選択してもよいことは、理解すべきである。例えば、これらの３つの変数以外、二番目に高い候補単語スコアを分類器のパラメータとして追加してもよい。

また、分類器手段９４０４が採用する分類器を限定しない。ロジスティック回帰分類器などのような様々なトレーニングされた分類器を採用して類似度が最も高い候補単語の信頼性を算出してもよい。

前述候補単語決定部９２０は、さらに、ターゲット単語のピンインとの編集距離及びコーパスにおける発生頻度に基づいて、ターゲット単語の正規化結果を表現する第二の候補単語グループを決定するように配置されてもよい。具体的には、候補単語決定部９２０は、ターゲット単語のピンインを決定するように配置されるピンイン決定手段９２０１(図示せず)と、ピンインと前述ターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定するように配置されるバックアップ単語決定手段９２０２(図示せず)と、各バックアップ単語についてそれのコーパスにおける発生頻度を算出するように配置される頻度決定手段９２０３(図示せず)と、編集距離と発生頻度に基づいて各バックアップ単語の候補単語スコアを決定するように配置される第二採点手段９２０４(図示せず)と、候補単語スコアが候補単語閾値より大きいバックアップ単語を当該ターゲット単語の正規化結果を表現する第二の候補単語グループとするように配置されるピンイン候補単語決定手段９２０５(図示せず)と、バックアップ単語決定手段９２０２が決定した各バックアップ単語について、その各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整するように配置される調整手段９２０６（図示せず）をさらに備えるように配置されてもよい。前述各手段の具体的な機能と操作は前述した図７の説明と同じであるため、ここでは詳細な説明を省略する。

類似度ソーティング部９３０は、さらに、単語ベクトルに基づいて、ターゲット単語と第二の候補単語グループにおける各候補単語との類似度を算出し、そのうちターゲット単語との類似度が最も高い候補単語を決定するように配置されてもよい。

正規化部９４０は、さらに、前述類似度ソーティング部９３０が第一の候補単語グループにおける類似度が最も高い候補単語（以下、単に「第一の好適単語」と称する）と第二の候補単語グループにおける類似度が最も高い候補単語（以下、単に「第二の好適単語」と称する）を決定した場合、所定のルールに従ってソーティングの結果に基づいてターゲット単語の正規化結果を決定するように配置されてもよい。

例えば、ある基本的な実施形態では、正規化部９４０は、第一の好適単語と第二の好適単語の類似度を比較し、両方において類似度がより高いものをターゲット単語の正規化結果とすればよい。

一実施形態では、第二の好適単語の類似度が第一候補単語より高くない場合、正規化部９４０は、第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて第一の好適単語の信頼性を決定し、当該信頼性が第一の所定閾値より大きい場合、第一の好適単語をターゲット単語の正規化結果とする。第一の好適単語が第二の候補単語グループにおいても存在する場合、当該第一の好適単語の信頼性を直接最大値とする。

一実施形態では、第二の好適単語の類似度が第一候補単語より高い場合、正規化部９４０は、第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて第二の好適単語の信頼性を算出し、当該信頼性は第二の所定閾値より大きい場合、第二の好適単語をターゲット単語の正規化結果とする。ここで、候補単語決定部９２０が算出した第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて、様々な適当な方式を採用して第二の好適単語の信頼性を算出する。例えば、一例として、候補単語スコアに基づいて第二の候補単語グループにおける各候補単語に対してソーティングを行い、その後Ｍ個（Ｍは自然数であり、Ｍは第二の候補単語グループの数以下である）の最も高いスコアを加算した和を第二の候補単語グループの数で除算し、その結果を第二の好適単語の信頼性とすればよい。第二の好適単語は第一の候補単語グループにおいても存在する場合、当該第二の好適単語の信頼性を直接最大値とする。

以上、本開示実施例による単語正規化装置を詳細に説明した。当該装置は、非正規化単語の意味により非正規化単語を正規化でき、よって意味変形の非正規化単語についてその正規化結果を得られる。当該装置は、非正規化単語の発音と非正規化単語の意味両方を同時に考慮して非正規化単語を正規化することもでき、よって発音変形の非正規化単語と意味変形の非正規化単語両方についてもその正規化結果が得られる。また、当該装置が、非正規化単語の発音を考慮するとき、音節が類似するか否かにより、各バックアップ単語とターゲット単語との編集距離を調整し、よって発音変形の非正規化単語の正規化結果が改善される。

図１０は本発明による別の実施例の単語正規化装置１０００の機能配置ブロック図を示す。

図１０に示すように、単語正規化装置１０００は、取得部１０１０、類似度ソーティング部１０２０、信頼性決定部１０３０、及び正規化部１０４０を備える。前述各部品の具体的な機能と操作は、前述した図８の説明と基本的に同じであり、重複を回避するために、以下、前述装置を簡略的に説明し、同じ部品に対する詳細的な説明を省略する。

取得部１０１０は、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得するように配置される。

取得部１０１０は、様々な方式で正規化すべきターゲット単語を取得できる。例えばユーザによって直接入力してもよいし、あるいは、既存の新単語検出方法等によって当該正規化すべきターゲット単語が含まれる文から当該ターゲット単語を検出してもよい。前述したように、この実施例による単語正規化方法において、ターゲット単語の正規化結果を表現する候補単語を取得する方法を限定しない。例えば、取得部１０１０は、第一実施例で説明した方式を採用してターゲット単語の意味に基づいて候補単語セットを取得してもよいし、第二実施例で説明した方式を採用してターゲット単語の発音と意味両方に基づいて候補単語セットを取得してもよいし、さらに、ターゲット単語の発音のみに基づいて候補単語セットを取得してもよいし、あるいは、当該分野のいかなる適当な方法を採用して候補単語セットを取得してもよい。

類似度ソーティング部１０２０は、単語ベクトルに基づいてターゲット単語と当該候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される。

信頼性決定部１０３０は、各候補単語における類似度が最も高い候補単語の信頼性を決定するように配置される。ここで、信頼性決定部１０３０は、様々な適当な方式を採用して各候補単語のうち、類似度が最も高いもの（以下、単に「好適単語」と称する）の信頼性を決定すればよい。例えば、ターゲット単語の意味に基づいて取得した候補単語セットあるいはターゲット単語のピンインに基づいて取得した候補単語セットについては、本発明第一実施例と第二実施例が説明したように好適単語の信頼性を決定すればよい。

正規化部１０４０は、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とするように配置される。

正規化部１０４０が当該類似度が最も高い好適単語の信頼性が予め設定した第三閾値より大きいと決定する場合、当該好適単語はターゲット単語をよく表現できると見なし、よって正規化部１０４０は当該好適単語を非正規化のターゲット単語の正規化結果とすることができる。逆に、ターゲット単語について納得できる正規化結果が得られないと見なす。

以上、この実施例による単語正規化装置を詳細に説明した。この実施例による単語正規化装置は、非正規化単語の正規化結果を表現する候補単語を決定する方式を限定しない。候補単語を決定した後、その信頼性を評価し、信頼性に基づいて候補単語が納得できるかどうかを決定し、よって正規化単語の正確性が保証される。

<システムハードウェア配置>
以下、図１１を参照しながら本開示実施例を実現するための、単語正規化装置に用いる算出装置の模式的なブロック図を説明する。

図１１に示すように、算出装置１１００は、一つ以上のプロセッサ１１０２、記憶装置１１０４、入力装置１１０６、及び出力装置１１０８を備え、これらの部品はバスシステム１１１０及び/又は他の接続機構（図示せず）によって互いに接続される。図１１に示す算出装置１１００の部品と構成が例示的なものに過ぎず、限定するものではなく、必要に応じて算出装置１１００は他の部品と構成を備えてもよいことに留意すべきである。

プロセッサ１１０２は中央処理手段（CPU）でもよいし、データ処理能力及び/又はコマンド実行能力を有するその他形式の処理手段であればよく、且つ、期待する機能を実行するよう、算出装置１１００におけるその他の部材を制御できる。

記憶装置１１０４は、一つ以上のコンピュータープログラム製品を備えればよい。前述コンピュータープログラム製品は、様々の形態のコンピューター読み可能記憶媒体、例えば揮発性メモリ及び/又は非揮発性メモリを備えればよい。前述揮発性メモリは、例えばランダムアクセスメモリ（RAM）及び/又は高速バッファーメモリ（キャッシュ）などを備えればよい。前述非揮発性メモリは、例えばリードオンリーメモリ（ROM）、ハードディスク、フラッシュメモリ等を備えればよい。前述コンピューター読み可能記憶媒体において一つ以上のコンピュータープログラムコマンドを記憶でき、プロセッサ１１２は、前述した本開示の実施例の機能及び/又はその他望ましい機能を実現するよう、前述プログラムコマンドを実行できる。前述コンピューター読み可能記憶媒体において様々なアプリケーションプログラムと様々なデータ、例えば前述した正規化すべきターゲット単語、ターゲット単語を解釈する文、第一の候補単語グループ、第二の候補単語グループ、各候補単語の類似度、予め定義した文テンプレート、各候補単語に対応する単語ベクトル、ターゲット単語のピンイン、各候補単語の編集距離、候補単語スコア、好適単語の信頼性、様々な閾値など、を記憶してもよい。

入力装置１１０６はユーザからの入力情報、例えば正規化すべきターゲット単語などを受信するために用いられ、有線/無線ネットワーク・インターフェース・カード、キーボード、マウス、タッチスクリーン、マイクロフォンなどの様々な入力装置を含んでよい。

出力装置１１０８は、外部へ様々な情報、例えば非正規化単語の正規化結果を出力でき、それに有線/無線ネットワーク・インターフェース・カード、ディスプレイ、プロジェクタ、テレビなどのような様々な表示装置を含んでよい。

以上、具体的な実施例で本開示の基本的な原理を説明したが、本開示に言及される利点、長所、効果などは例示に過ぎず、限定ではないこと、及びこのような利点、長所、効果などは本開示の各実施例には必須ではないことに留意すべきである。また、前述公開した具体的な詳細は例示することと理解しやすくなることのみを目的とし、限定することではない。前述詳細は、本開示が必ず前述した具体的な詳細を採用して実現することを限定しない。

本開示に係る素子、装置、デバイス、システムのブロック図は例示的な例に過ぎず、必ずブロック図に示す方式で接続／設置／配置することを意図しなく、また暗黙的にもそれを求めない。任意の方式でこのような素子、装置、デバイス、システムを接続／設置／配置できることは、当業者が理解するであろう。「含む」、「包含する」、「備える」等のような用語はオープン語彙であり、「含むがそれに限定しない」を意味し、その表現を置き換えて使用できる。ここで使用される「又は」と「及び」は「及び／又は」を意味し、コンテキスト上明示的に否定すること以外、その表現に置き換えて使用できる。ここで使用される「のような」は、「のような○○であるが、これに限定しない」を意味し、その表現に置き換えて使用できる。

また、ここで使用されるように、「少なくとも一つ」と始まる項目の列挙に使用される「又は」は分離的な列挙を指し、例えば「A、B又はCの少なくとも一つ」等の列挙はA又はB又はC、あるいはAB又はAC又はBC、あるいはABC（即ちAとBとC）を意味する。また、「例示的な」という文言は、説明する例が好適である又は他の例よりよいという意味ではない。

注目すべきは、本開示によるシステムと方法では、各部品又は各ステップは分解及び/又は組み合わせ直しできる。このような分解及び/又は組み合わせ直しは、本開示の同等的な形態と見なすべきことである。

前述技術に対して様々な変更、置換と修正を、請求項により定義した範囲を逸脱することなく可能である。また、本開示の請求項の範囲は、前記の処理、機械、製造、項目の構成、手段、方法と動作の具体的な方面に限らない。前述の対応する方面で基本的に同じ機能を実現する又は基本的に同じ結果を実現する既存又は今後開発する処理、機械、製造、項目の構成、手段、方法又は動作を利用できる。よって、添付した請求項は、その範囲内にあるこのような処理、機械、製造、項目の構成、手段、方法又は動作を含む。

当業者が本開示を実現又は使用できるよう、公開された形態を以上のように説明した。このような形態への様々な修正は、当業者にとって明らかであり、それに、ここで定義した一般的な原理を、本開示の範囲を逸脱することなく他の形態に適用できる。本開示をここで示す形態に限定する意図がなく、本開示の範囲は本開示の原理と新規性のある特徴と一致する最も広い範囲によるものである。

例示と説明を目的で以上説明した。また、この説明は本開示の実施例を本開示の形態に限定する意図がない。以上で、複数の例示的な形態と実施例を検討したが、当業者がいくつかの変形、修正、変更、追加及び組み合わせを認識できる。

Claims

正規化すべきターゲット単語を取得することと、
ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、
単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
ソーティングの結果に基づいてターゲット単語の正規化結果を決定することとを含む、単語正規化方法。
前述のネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索することは、
ネットワークサーチエンジンを利用して当該ターゲット単語に関するウェブページを検索することと、
検索したウェブページにおける各文を予め定義したテンプレートとマッチングし、テンプレートとマッチングした文を当該ターゲット単語を解釈する文とすることとを含む、請求項１に記載の単語正規化方法。
前述の前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することは、
前述文を単語に分割することと、
当該文とマッチングしたテンプレートの統語構造により、分割して得られた単語のうち、ターゲット単語に関する単語を決定することと、
前述決定したターゲット単語に関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとすることとを含む、請求項２に記載の単語正規化方法。
前述の前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することは、
前述文を単語に分割することと、
当該文とマッチングするテンプレートの統語構造により、分割して得られた単語のうち、ターゲット単語に関する単語を決定することと、
依存関係及び／又は否定修飾に基づいて、前述決定したターゲット単語に関する単語のうちの少なくとも一つの単語を拡張することと、
拡張した後の単語、拡張した後の単語以外のその他関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとすることとを含む、請求項２に記載の単語正規化方法。
前述依存関係は、限定／形容詞と中心詞との関係、動詞と目的語との関係、副詞と中心詞の構造の少なくとも一つを含む請求項４に記載の単語正規化方法。
単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出することは、
ターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定することと、
ターゲット単語の単語ベクトルと各候補単語の単語ベクトルとの類似度を、ターゲット単語と各候補単語との類似度として算出することとを含む、請求項１ないし５のいずれか一項に記載の単語正規化方法。
前述のターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定することは、
ターゲット単語を文字に分割し、各文字に対応する文字ベクトルを決定することと、
各文字ベクトルを加算し、ターゲット単語に対応する単語ベクトルを得ることと、
各候補単語を文字に分割し、各文字に対応する文字ベクトルを決定することと、
各候補単語について、それの各文字に対応する文字ベクトルを加算して、当該候補単語に対応する単語ベクトルを得ることとを含む、請求項６に記載の単語正規化方法。
前述のソーティングの結果に基づいてターゲット単語の正規化結果を決定することは、
第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて、第一の候補単語グループのうち、類似度が最も高い候補単語の信頼性を決定することと、
当該信頼性が第一の所定閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを含む、請求項２に記載の単語正規化方法。
第一の候補単語グループのうち、類似度が最も高い候補単語の信頼性を決定することは、
第一の候補単語グループにおける各候補単語について、候補単語スコアを算出することと、
候補単語スコアに基づいて、第一の候補単語グループにおける各候補単語に対してソーティングを行うことと、
各隣接する候補単語ペア間の候補単語スコアの差を算出することと、
少なくとも最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数に基づき、トレーニングされた分類器を利用して当該類似度が最も高い候補単語の信頼性を算出することとを含む、請求項８に記載の単語正規化方法。
前述の第一の候補単語グループにおける各候補単語について、候補単語スコアを算出することは、
当該候補単語が検索したターゲット単語を解釈するための文における発生頻度を算出することと、
前述ターゲット単語を解釈するための文のうち、当該候補単語が含まれる各文を決定することと、
前述予め定義したテンプレートのうち、それぞれ前述各文とマッチングする各テンプレートを決定することと、
前述各テンプレートそれぞれの所定スコアを決定することと、
最も高い所定スコアと前述発生頻度に基づいて当該候補単語の候補単語スコアを決定することとを含む、請求項９に記載の単語正規化方法。
ターゲット単語のピンインを決定することと、
ピンインと前述ターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定することと、
各バックアップ単語についてそれがコーパスにおける発生頻度を算出することと、
編集距離と発生頻度に基づいて各バックアップ単語の候補単語スコアを決定することと、
候補単語スコアが候補単語閾値より大きいバックアップ単語を、当該ターゲット単語の正規化結果を表現する第二の候補単語グループとすることとをさらに含む、請求項１に記載の単語正規化方法。
各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することをさらに含む、請求項１１に記載の単語正規化方法。
前述の各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することは、
当該バックアップ単語における各音節をそれぞれ、ターゲット単語における対応する音節と比較することと、
当該バックアップ単語においてＮ個の音節がターゲット単語におけるN個の対応音節と異なるが類似する場合、当該バックアップ単語とターゲット単語との編集距離をＮ（Ｎは自然数である）個の第一距離で減少することとを含む、請求項１２に記載の単語正規化方法。
前述の各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することは、
当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節と類似する場合、当該バックアップ単語とターゲット単語との編集距離を第二距離で減小することと、
当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節と異なりかつ類似しない場合、当該バックアップ単語とターゲット単語との編集距離を第三距離で増加することとをさらに含む、請求項１３に記載の単語正規化方法。
単語ベクトルに基づいてターゲット単語と第二の候補単語グループにおける各候補単語との類似度を算出し、そのうちターゲット単語との類似度が最も高い候補単語を決定することとをさらに含む、請求項１１ないし１４のいずれか一項に記載の単語正規化方法。
前述のソーティングの結果に基づいてターゲット単語正規化の結果を決定することは、
第一の候補単語グループにおける類似度が最も高い候補単語を決定することと、
第二の候補単語グループにおける類似度が最も高い候補単語の類似度が第一の候補単語グループにおける類似度が最も高い候補単語より高い場合、第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて当該第二の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出することと、
当該信頼性が第二の所定閾値より大きい場合、第二の候補単語グループにおける類似度が最も高い候補単語をターゲット単語の正規化結果とすることを含む、請求項１５に記載の単語正規化方法。
前述のソーティングの結果に基づいてターゲット単語正規化の結果を決定することは、
第二の候補単語グループにおける類似度が最も高い候補単語の類似度が第一の候補単語グループにおける類似度が最も高い候補単語より高くない場合、第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて当該第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出することと、
当該信頼性が第一の所定閾値より大きい場合、第一の候補単語グループにおける当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることをさらに含む、請求項１６に記載の単語正規化方法。
第一の候補単語グループにおける類似度が最も高い候補単語は第二の候補単語グループにおいても存在する場合、当該第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を最大値にすることと、
第二の候補単語グループにおける類似度が最も高い候補単語は第一の候補単語グループにおいても存在する場合、当該第二の候補単語グループにおける類似度が最も高い候補単語の信頼性を最大値にすることとをさらに含む、請求項１７に記載の単語正規化方法。
正規化すべきターゲット単語を取得するように配置される取得部と、
ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語をターゲット単語の正規化結果を表現する第一の候補単語グループとして決定するように配置される候補単語決定部と、
基幹単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、
ソーティングの結果に基づいてターゲット単語の正規化結果を決定するように配置される正規化部とを備える、単語正規化装置。
プロセッサと、
メモリと、
前記プロセッサによって実行されるとき、
正規化すべきターゲット単語を取得することと、
ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、
単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
ソーティングの結果に基づいてターゲット単語の正規化結果を決定することとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、単語正規化装置。
正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、
単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
各候補単語のうち、類似度が最も高いものの信頼性を決定することと、
当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを含む、単語正規化方法。
ソース言語における非正規化単語を検出することと、
当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、
単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
各候補単語のうち、類似度が最も高いものの信頼性を決定することと、
当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳することとを含む、機械翻訳方法。