JP2018077850A - 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 - Google Patents

単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 Download PDF

Info

Publication number
JP2018077850A
JP2018077850A JP2017217389A JP2017217389A JP2018077850A JP 2018077850 A JP2018077850 A JP 2018077850A JP 2017217389 A JP2017217389 A JP 2017217389A JP 2017217389 A JP2017217389 A JP 2017217389A JP 2018077850 A JP2018077850 A JP 2018077850A
Authority
JP
Japan
Prior art keywords
word
candidate
target
candidate word
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017217389A
Other languages
English (en)
Other versions
JP7120751B2 (ja
Inventor
王暁利
Xiaoli Wang
▲鐘▼延
Yan Zhong
▲張▼▲馳▼
Chi Zhang
▲陳▼▲嵐▼
Lan Chen
徐蔚然
Weiran Chu
申站
zhan Shen
姜一欣
Yixin Jiang
武市 真知
Masatomo Takechi
真知 武市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2018077850A publication Critical patent/JP2018077850A/ja
Application granted granted Critical
Publication of JP7120751B2 publication Critical patent/JP7120751B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】単語正規化方法、単語正規化装置及び機械翻訳方法と機械翻訳装置を提供する。【解決手段】単語正規化方法は、正規化すべきターゲット単語を取得することと、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果の第一の候補単語グループとして決定することと、単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、類似度により各候補単語に対してソーティングを行うことと、ソーティングの結果によりターゲット単語の正規化結果を決定することを含む。単語正規化技術と機械翻訳技術は、監督なし方式を採用して非正規化単語を意味により正規化するため、意味変形の非正規化単語についてその正規化結果が得られ、意味変形の非正規化単語が含まれる文の機械翻訳の性能が改善される。【選択図】図1

Description

本開示は全体的には自然言語処理に関し、具体的には非正規化単語の単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置に関する。
Figure 2018077850
Figure 2018077850
少なくとも以上の問題について本開示を提案する。
本開示のある実施例によると、正規化すべきターゲット単語を取得することと、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、ソーティングの結果に基づいてターゲット単語の正規化結果を決定することを含む、単語正規化方法を提供する。
本開示の別の実施例によると、正規化すべきターゲット単語を取得するように配置される取得部と、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語をターゲット単語の正規化結果を表現する第一の候補単語グループとして決定するように配置される候補単語決定部と、基幹単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、ソーティングの結果に基づいてターゲット単語の正規化結果を決定するように配置される正規化部とを備える、単語正規化装置を提供する。
本開示の別の実施例によると、プロセッサと、メモリと、前記プロセッサによって実行されるとき、正規化すべきターゲット単語を取得することと、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、ソーティングの結果に基づいてターゲット単語の正規化結果を決定することとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、単語正規化装置を提供する。
本開示の別の実施例によると、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うことと、各候補単語のうち、類似度が最も高いものの信頼性を決定することと、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを含む、単語正規化方法を提供する。
本開示の別の実施例によると、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得するように配置される取得部と、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、各候補単語のうち、類似度が最も高いものの信頼性を決定するように配置される信頼性決定部と、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とするように配置される正規化部とを含む、単語正規化装置を提供する。
本開示の別の実施例によると、プロセッサと、メモリと、前記プロセッサによって実行されるとき、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うことと、各候補単語のうち、類似度が最も高いものの信頼性を決定することと、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、単語正規化装置を提供する。
本開示の別の実施例によると、ソース言語における非正規化単語を検出することと、当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うことと、各候補単語のうち、類似度が最も高いものの信頼性を決定することと、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳することとを含む、機械翻訳方法を提供する。
本開示の別の実施例によると、ソース言語における非正規化単語を検出するように配置される検出部と、当該ターゲット単語の正規化結果を表現する候補単語セットを取得するように配置される候補単語取得部と、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、各候補単語のうち、類似度が最も高いものの信頼性を決定するように配置される信頼性決定部と、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳するように配置される翻訳部とを備える、機械翻訳装置を提供する。
本開示の別の実施例によると、プロセッサと、メモリと、前記プロセッサによって実行されるとき、ソース言語における非正規化単語を検出することと、当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行うことと、各候補単語のうち、類似度が最も高いものの信頼性を決定することと、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳することとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、機械翻訳方法を提供する。
本開示実施例による単語正規化技術及び機械翻訳技術は、監督なし方式を採用して非正規化単語の意味により非正規化単語を正規化する。よって意味変形の非正規化単語についてその正規化結果が得られ、それに意味変形の非正規化単語が含まる文の機械翻訳の性能が改善される。一方、本開示実施例による単語正規化技術及び機械翻訳技術は得られた正規化単語に対してその信頼性を評価し、信頼性により正規化単語が納得できるかどうかを決定する。よって正規化単語の正確性が保証される。
本開示の目的、特徴、および利点は、以下の実施例に対する詳細な説明と添付図面とによって、より明白となる。本発明の更なる理解のために図面を提供する。図面は明細書の一部となり、本開示実施例と共に本開示を解釈するために用いられ、本開示を限定するものではない。図面において、同じ参照符号は、通常、同一部品又はステップを表す。
図1は、本開示第一実施例による単語正規化方法のフローチャートを模式的に示す図である。 図2は百度百科(baike.baidu.com)によって非正規化単語を検索して得られたウェブページを示す。 図3は百度知道(zhidao.baidu.com)によって非正規化単語を検索して得られたウェブページを示す。 図4は、本開示第一実施例による単語正規化方法において第一の候補単語グループのうち類似度が最も高いものの信頼性を決定する方法のフローチャートを示す。 図5は、本開示第一実施例による単語正規化方法により第一の候補単語グループにおける各候補単語について決定した候補単語スコア、以及当該候補単語スコアに基づいて各候補単語に対してソーティングを行った結果を例示する。 図6は、本開示第二実施例による単語正規化方法のフローチャートを模式的に示す図である。 図7は、本開示第二実施例による単語正規化方法において第二の候補単語グループを決定する方法のフローチャートを示す。 図8は、本開示第三実施例による単語正規化方法のフローチャートを模式的に示す図である。 図9は、本発明のある実施例による単語正規化装置の機能配置ブロック図を示す。 図10は、本発明の他の実施例による単語正規化装置の機能配置ブロック図を示す。 図11は、本開示実施例による単語正規化装置を実現するために用いられる算出装置の模式的なブロック図を示す。
以下、本開示の目的、技術案、および利点が一層明らかとなるように、図面を参照しながら、本開示による例示的な実施例を詳細に説明する。ここで説明する実施例は本開示の一部の実施例であり、本開示の全ての実施例でないことは、明らかであろう。本開示はここで説明する例示的な実施例に限定されないことは理解すべきである。本開示で説明する実施例に基づいて、当業者が創造的労働なしで得られる全ての他の実施例は本開示の保護範囲内にある。
<第一実施例>
以下、図1を参照しながら、本開示第一実施例による単語正規化方法を詳細に説明する。図1は、この実施例の単語正規化方法を模式的に示すフローチャートである。
図1に示すように、ステップS110において、正規化すべきターゲット単語(target word)を取得する。
様々な方法で正規化すべきターゲット単語を取得できる。例えば、ユーザによって直接入力してもよいし、あるいは、既存の新単語検出方法などによって当該正規化すべきターゲット単語が含まれる文から当該ターゲット単語を検出してもよい。
ステップS120において、ネットワークサーチエンジンを利用し当該ターゲット単語を解釈するための文(sentence)を検索し、前述文から当該ターゲット単語に関する単語を、当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定する。
当該ステップにおいて、既存のネットワークサーチエンジンを利用して当該ターゲット単語に関するウェブページを検索し、その後に検索したウェブページにおける各文を予め定義したテンプレートとマッチングし、テンプレートとマッチングした文を当該ターゲット単語を解釈するための文とすることができる。前述予め定義したテンプレートは、ターゲット単語を解釈・定義するためのテンプレート文型(sentence pattern)であり、経験によって予め設定でき、また様々なテンプレートを定義できる。検索したウェブページにおける文が各テンプレートのうち少なくとも一つとマッチングすれば、当該文はターゲット単語を解釈する文と見なす。理解しやすくなるために、以下、ネットワークサーチエンジンは百度知道(zhidao.baidu.com)と百度百科(baike.baidu.com)である場合を例として前述処理を説明する。
Figure 2018077850
このように、ターゲット単語を解釈する文を検索できた後、さらに文におけるターゲット単語に関する単語を、ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定する。前述ターゲット単語に関する単語は、様々な適当な方式で決定することができる。
Figure 2018077850
Figure 2018077850
単語分割によって得られた単語はターゲット単語をよく解釈できないのに、分割して得られた単語を熟語(phrase)として拡張すると、ターゲット単語をよく解釈できる場合がある。例えば、ターゲット単語である「熟女」について、解釈するための文が「意思是成熟的女性」(成熟した女性という意味)と検索できて、単語分割によって「女性」と得られ、ただ「女性」だと実は「熟女」をよく解釈できず、「成熟的女性」のほうがもっと「熟女」の意味に当たる。また、ある分割によって得られた単語の前に否定修飾「不」(しない、ではない)、「没」(ではない)等があると、当該否定修飾と分割によって得られた単語を組み合わせたほうが、通常もっと中国語の表現に当たる。前述場合を考えると、一実施形態では、単語分割によって文を単語に分割して、そのうちターゲット単語に関する単語を決定した後、依存関係及び/又は否定修飾に基づいて決定できたターゲット単語に関する単語のうち少なくとも一つの単語を拡張し、その後、拡張した単語、拡張した単語以外のその他ターゲット単語に関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとする。依存関係は、文における各要素間の語義的修飾関係を説明するものであり、この実施形態では、依存関係は、限定/形容詞と中心詞との関係、動詞と目的語との関係、副詞と中心詞の構造のいずれか一つまたはそれらの組み合わせを用いてよい。
Figure 2018077850
ステップS130において、単語ベクトルに基づいて、ターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度により各候補単語に対してソーティングを行う。
いずれの単語でも単語ベクトルで表すことができ、二つの単語ベクトル間の距離が近いほど、それらが表す二つの単語が類似することは、当該分野において公知である。このステップにおいて、単語ベクトルによってターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、即ち各候補単語とターゲット単語との類似度合いを決定し、その後類似度が高いか低いかにより各々の候補単語に対してソーティングを行う。
具体的には、このステップにおいて、ターゲット単語と各候補単語についてそれぞれが対応する単語ベクトルを決定し、その後ターゲット単語の単語ベクトルと各候補単語の単語ベクトルとの間の類似度(例えば、コサイン距離)をターゲット単語と各候補単語との類似度として算出することができる。
ターゲット単語と各候補単語についてそれぞれが対応する単語ベクトルを決定するとき、一実施形態では、word embedding等のような既存ツールによってターゲット単語と各候補単語それぞれが対応する単語ベクトルを直接決定できる。別の実施形態では、ターゲット単語と各候補単語をともに文字に分解し、その後既存のツールによって各文字に対応する文字ベクトルを決定し、最後に単語に含まれる各文字の文字ベクトルを加算するによって、ターゲット単語と各候補単語の単語ベクトルを得られる。ある文字に対応する文字ベクトルを決定できない場合、対応する文字ベクトルをゼロに設定すればよい。
ステップS140において、ソーティングの結果に基づいて、ターゲット単語の正規化結果を決定する。
このステップにおいて、所定のルールに従ってソーティングの結果に基づいて、ターゲット単語の正規化結果を決定できる。例えば、ある基本的な実施形態では、ソーティングによって得られた類似度が最も高い候補単語を直接ターゲット単語の正規化結果とする。
一実施形態では、第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出できる。当該信頼性が第一の所定閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とする。逆の場合、類似度が最も高い候補単語であってもターゲット単語をよく表現できないとみなし、即ちターゲット単語について利用できる正規化結果が得られない。前述第一の所定閾値は必要に応じて設定でき、例えば、一例として、その値が0.45である。
以下、図4を参照しながら、第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を決定する処理を説明する。
図4に示すように、ステップS1401において、第一の候補単語グループにおける各候補単語について、候補単語スコアを算出する。
当該ステップにおいて、様々な適当な方式を採用して各候補単語の候補単語スコアを決定できる。例えば、一例として、発生頻度が高いほど及び/又はテンプレートが良いほど、候補単語の候補単語スコアが高くなるように、当該候補単語の発生頻度及び当該候補単語に関するテンプレートの良さに基づいて当該候補単語の候補単語スコアを決定できる。具体的には、この一例に従い、各候補単語について、当該候補単語が検索できたターゲット単語を解釈するための文における発生頻度を算出し、前述ターゲット単語を解釈するための文において当該候補単語が含まれる各文を決定し、予め定義したテンプレートのうち前述各文とそれぞれマッチングする各テンプレートを決定し、各テンプレートそれぞれの予定スコアを決定し、そして最も高い予定スコアと発生頻度に基づいて当該候補単語の候補単語スコアを決定する。
Figure 2018077850
ステップS1402において、候補単語スコアに基づいて、第一の候補単語グループにおける各候補単語に対してソーティングを行う。
例えば、図5は、ステップS1401−S1402における例示的な処理によって、「狗血」の各候補単語について候補単語スコアを決定し、当該候補単語スコアに基づいてソーティングを行った結果を例示する。
ステップS1403において、各隣接する候補単語ペア間の候補単語スコアの差を算出する。
Figure 2018077850
ステップS1404において、少なくとも最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数に基づき、トレーニングされた分類器を利用して当該類似度が最も高い候補単語の信頼性を算出する。
当該ステップにおいて、最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数を分類器的パラメータとして利用するが、これが一例に過ぎず、その他の変数を分類器のパラメータとして選択してもよいことは、理解すべきである。例えば、この3つの変数以外、二番目に高い候補単語スコアを分類器のパラメータとして追加してもよい。
また、当該ステップに用いる分類器を限定せず、ロジスティック回帰分類器等のような様々なトレーニングされた分類器を採用して類似度が最も高い候補単語の信頼性を算出すればよい。
以上、図4を参照して、本開示第一実施例による第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を決定する処理を説明した。これが一例に過ぎず、本発明はそれに限定せず、具体的な場合によってその他方式により類似度が最も高い候補単語の信頼性を決定すればよいことは、理解すべきである。
以上、本開示第一実施例による単語正規化方法を詳細に説明した。当該方法において、監督なし方式を採用して非正規化単語の意味に基づいて非正規化単語を正規化するため、意味変形の非正規化単語についてその正規化結果を得られる。
<第二実施例>
前述した第一実施例において、非正規化単語の意味のみに基づいて非正規化単語を正規化するため、意味変形の非正規化単語についてその正規化結果を得られるのに対して、本実施例において、非正規化単語の意味を考慮する以外、非正規化単語の発音も考慮するため、発音異形の非正規化単語と意味変形の非正規化単語両方についてその正規化結果を得られる。以下の説明において、本実施例の第一実施例と異なる部分のみを詳細に説明し、第一実施例と同じ部分については説明を省略する。
以下、図6を参照して、本実施例による単語正規化方法を詳細に説明する。図6は、本開示第二実施例による単語正規化方法のフローチャートを模式的に示図である。
図6に示すように、ステップS610において、正規化すべきターゲット単語を取得する。ステップS620において、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を、当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定する。ステップS630において、単語ベクトルに基づいて、ターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行う。
前述ステップS610−S630における処理は、それぞれ第一実施例のステップS110−S130における処理と同じであるため、ここで詳細な説明を省略する。
図6に戻り、ステップS640において、ターゲット単語のピンインとの編集距離及びコーパス(corpus)における発生頻度に基づき、当該ターゲット単語の正規化結果を表現する第二の候補単語グループを決定する。以下、図7を参照しながら、当該ステップにおける処理を説明する。
図7に示すように、ステップS6401において、ターゲット単語のピンインを決定する。
ステップS6402において、ピンインと前述ターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定する。
編集距離とは、二つの文字列間で一方を他方へ転換するには必要する最少の編集操作回数である。通常、編集距離が小さいほど、二つの文字列の類似度が高い。当該ステップにおいて、ピンインを文字列と見なし、ある辞書における各単語のピンインとターゲット単語のピンインとの編集距離を順次算出することによって、ピンインとターゲット単語のピンインとの編集距離が予め設定したバックアップ閾値より小さい各バックアップ単語は得られる。編集距離をどのように算出するかについては、当該分野において公知であり、ここで詳細な説明を省略する。また、本実施例は辞書を限定せず、必要に応じていかなる適当な辞書を採用すればよい。本実施例はバックアップ閾値の値についても限定せず、必要に応じて適当の値を設定すればよい。
ステップS6403において、各バックアップ単語についてそれがコーパスにおける発生頻度を算出する。
この実施例では、コーパスを限定せず、必要に応じて既存の様々なコーパスを採用すればよい。コーパスを選定した後、各バックアップ単語がその中に出る回数を当該バックアップ単語の発生頻度として決定できる。
ステップS6404において、編集距離と発生頻度に基づいて各バックアップ単語の候補単語スコアを決定する。
当該ステップにおいて、バックアップ単語の編集距離が小さいほど及び/又は発生頻度が小さいほど、その候補単語スコアが高いであること限り、様々な適当の方式を採用し、編集距離と発生頻度に基づいてバックアップ単語の候補単語スコアを決定できる。例えば、一例として、候補単語スコア=(単語頻度/最大単語頻度)×n +[1-(編集距離/(文字長さ×a))]×m、ただし、最大単語頻度は各バックアップ単語の発生頻度の最大値を示し、文字長さはバックアップ単語がいくつかの文字で構成される(例えば、「童鞋」の文字長さは2である)かを示し、編集距離は当該バックアップ単語とターゲット単語間の編集距離を示し、単語頻度は当該バックアップ単語の発生頻度を示し、nとmは加重値であり、aは経験によって決定する調整因子であり、例えばaは編集距離の最大値4.1であればよい。
ステップS6405において、候補単語スコアが候補単語閾値より大きいバックアップ単語を当該ターゲット単語の正規化結果を表現する第二の候補単語グループとする。
この実施例は候補単語閾値の値を限定せず、必要に応じて適当の値に設定すればよい。当該ステップにおいて、候補単語スコアを候補単語閾値と比較することによって、候補単語スコアが候補単語閾値より大きい各バックアップ単語を第二の候補単語グループとして決定できる。
以上、図7を参照しながら、この実施例によるターゲット単語のピンインとの編集距離及びコーパスにおける発生頻度に基づいて第二の候補単語グループを決定する処理について説明した。以上の説明は例示的な基本処理方式であることは理解されるであろう。ステップS6402において、ピンインとターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定した後、各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより当該バックアップ単語とターゲット単語との編集距離を調整することもできる。具体的には、前述したように、ステップS6402において、当該分野において公知である技術を採用して編集距離を算出する。当該分野の現在典型的な技術によると、二つの音節の編集距離を算出するとき、二つの音節が同じであるかどうかのみによって算出する。例えば、「s」と「s」のような二つの同じ音節の場合、その編集距離が0であるが、「x」と「sh」のような二つの異なる音節の場合、その編集距離が1である。しかし、「s」と「sh」、「en」と「eng」などのような類似する音節間の編集距離は、二つの違いかつ類似しない音節間の編集距離より小さいであるべきことは、理解できるであろう。
前述認識に基づき、一実施形態では、バックアップ単語における各音節をターゲット単語における対応する音節とそれぞれ比較し、当該バックアップ単語においてN個の音節がターゲット単語におけるN個の対応する音節と異なるが類似すれば、当該バックアップ単語とターゲット単語との編集距離をN個の第一距離で減少し、ただし、Nは自然数である。当該実施形態では、経験等により予めどの音節が類似するかを設定しておくことができる。
別の一実施形態では、当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節に類似すれば、当該バックアップ単語とターゲット単語との編集距離を第二距離で減少する。
別の一実施形態では、当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節と異なりかつ類似しない場合、当該バックアップ単語とターゲット単語との編集距離を第三距離で増加する。
図6に戻り、ステップS650において、単語ベクトルに基づきターゲット単語と第二の候補単語グループにおける各候補単語との類似度を算出し、そのうち、ターゲット単語との類似度が最も高い候補単語を決定する。
当該ステップにおける処理が第一実施例のステップS130における処理と類似するため、ここでは詳細な説明を省略する。
ステップS660において、ソーティングの結果に基づいてターゲット単語の正規化結果を決定する。
当該ステップにおいて、所定のルールに従い、ソーティングの結果に基づいてターゲット単語の正規化結果を決定できる。例えば、ある基本的な実施形態では、ステップS630において決定した第一の候補単語グループにおける類似度が最も高い候補単語(以下、単に「第一の好適単語」と称する)とステップS650において決定した第二の候補単語グループにおける類似度が最も高い候補単語(以下、単に「第二の好適単語」と称する)の類似度を比較し、両方のうち類似度がより高いものをターゲット単語の正規化結果とする。
一実施形態では、第二の好適単語の類似度が第一の好適単語より高くない場合、第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて第一の好適単語の信頼性を決定し、当該信頼性が第一の所定閾値より大きい場合、第一の好適単語をターゲット単語の正規化結果とする。図4を参照しながら第一の好適単語の信頼性を決定する処理を既に説明したため、ここで省略する。第一の好適単語は第二の候補単語グループにおいても存在する場合、当該第一の好適単語の信頼性を直接最大値としてもよい。
一実施形態では、第二の好適単語の類似度が第一の好適単語より高い場合、第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて第二の好適単語の信頼性を算出し、当該信頼性が第二の所定閾値より大きい場合、第二の好適単語をターゲット単語の正規化結果とする。当該実施形態では、ステップS6404において算出した第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて、様々な適当な方式を採用して第二の好適単語の信頼性を算出する。例えば、一例として、候補単語スコアに基づいて第二の候補単語グループにおける各候補単語に対してソーティングを行い、その後M個(Mは自然数であり、M≦第二の候補単語グループの数)の最も高いスコアを加算した和を第二候補単語の数で除算し、第二の好適単語の信頼性とする。第二の好適単語は第一の候補単語グループにおいても存在する場合、当該第二の好適単語の信頼性を直接最大値としてもよい。前述第二の所定閾値は必要に応じて設定すればよく、この実施例はこれを限定しない。
以上、本開示第二実施例による単語正規化方法を詳細に説明した。当該方法は非正規化単語の発音と、非正規化単語の意味両方を考慮するため、発音変形の非正規化単語と意味変形の非正規化単語両方についても、その正規化結果は得られる。また、当該方法では、非正規化単語の発音を考慮する際に、音節が類似するか否かにより、各バックアップ単語とターゲット単語との編集距離を調整するため、発音変形場合の非正規化単語の正規化結果は改善される。
注意されたいのは、以上でステップS610からS660までの順番でこの実施例による単語正規化方法を説明したが、これが一例に過ぎず、前述ステップS610からS660までは、必ずしも説明した順番で実行する必要がない。例えば、ステップS640、S650を順次実行した後にステップS620、S630を順次実行してもよく、あるいは、ステップS620、S630を実行すると同時にステップS640、S650を並行に実行してもよい。
<第三実施例>
前述の実施例において、非正規化単語の意味と発音を考慮して非正規化単語の正規化結果を表現する候補単語を決定する。この実施例による単語正規化方法において、非正規化単語の正規化結果を表現する候補単語を決定する方法を限定しない。候補単語を決定した後、その信頼性を評価し、信頼性に基づいて候補単語は納得できるかどうかを決定する。
以下、図8を参照しながら、本開示第三実施例による単語正規化方法を説明する。図8は、本開示第三実施例による単語正規化方法のフローチャートを模式的に示す図である。
図8に示すように、ステップS810において、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得する。
様々な方式によって正規化すべきターゲット単語を取得でき、例えばユーザによって直接入力してもよいし、あるいは、既存の新単語検出方法等によって当該正規化すべきターゲット単語が含まれる文から当該ターゲット単語を検出してもよい。
前述したように、この実施例による単語正規化方法において、ターゲット単語の正規化結果を表現する候補単語を取得する方法を限定しない。例えば、ここで第一実施例で説明した方式を採用してターゲット単語の意味に基づいて候補単語セットを取得してもよいし、第二実施例で説明した方式を採用してターゲット単語の発音と意味両方に基づいて候補単語セットを取得してもよいし、ターゲット単語の発音だけに基づいて候補単語セットを取得してもよいし、あるいは、当該分野のいかなる適当な方法によって候補単語セットを取得してもよい。
ステップS820において、単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行う。
当該ステップの処理は第一実施例ステップS130における処理と同じであるため、ここで説明を省略する。
ステップS830において、各候補単語のうち、類似度が最も高いものの信頼性を決定する。
当該ステップにおいて、様々な適当な方式を採用して各候補単語のうち、類似度が最も高いものの信頼性を決定できる。例えば、ターゲット単語の意味に基づいて取得した候補単語セット及び/又はターゲット単語のピンインに基づいて取得した候補単語セットについて、本発明第一実施例と第二実施例で説明したように当該類似度が最も高い候補単語の信頼性を決定でき、ここで説明を省略する。
ステップS840において、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とする。
当該類似度が最も高い好適単語の信頼性が予め設定した第三閾値より大きいと決定すれば、当該候補単語はターゲット単語をよく表現できると見なし、よって当該候補単語を非正規化のターゲット単語の正規化結果とすればよい。逆に、ターゲット単語について納得できる正規化結果はできていないと見なす。前述第三閾値は、経験と必要に応じて設定すればよく、例えば一例として、その値は0.6である。
以上、本開示第三実施例による単語正規化方法を詳細に説明した。本開示第三実施例による単語正規化方法は、非正規化単語の正規化結果を表現する候補単語を決定する方法を限定しない。候補単語を決定した後、その信頼性を評価し、信頼性に基づいて候補単語は納得かどうかを決定し、よって正規化単語の正確性を保証する。
一方、この実施例による単語正規化方法は機械翻訳に適用されることができる。より明確的には、この実施例は、実は、(i)ソース言語における非正規化単語を検出するステップと、(ii)当該ターゲット単語の正規化結果を表現する候補単語セットを取得するステップと、(iii)単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うステップと、(iv)各候補単語のうち、類似度が最も高いものの信頼性を決定するステップと、(v)当該信頼性は第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、これをターゲット言語に翻訳するステップ、を含む機械翻訳方法を提供する。前述ステップ(i)において、既存の新単語検出方法等によって非正規化単語が含まれる文から当該非正規化単語を検出すればよい。ステップ(v)において、様々な通常な機械翻訳方法を採用して正規化後の単語をターゲット言語に翻訳すればよい。残りの各ステップ(ii)-(iv)における処理はこの実施例による単語正規化方法における各対応するステップの処理と類似するため、ここでは説明を省略する。
<単語正規化装置の全体配置>
図9は本発明の一実施例による単語正規化装置900の機能配置ブロック図を示す。
図9に示すように、単語正規化装置900は、取得部910、候補単語決定部920、類似度ソーティング部930、及び正規化部940を備える。前述各部品の具体的な機能と操作は、前述した図1−7の説明と基本的に同じであり、重複を回避するために、以下、前述装置について簡略的な説明のみを行い、同じ部品について詳細的な説明を省略する。
取得部910は、正規化すべきターゲット単語を取得するように配置される。取得部910は、様々な方式によって正規化すべきターゲット単語を取得でき、例えばユーザによって直接入力してもよいし、あるいは、既存の新単語検出方法等によって当該正規化すべきターゲット単語が含まれる文から当該ターゲット単語を検出してもよい。
候補単語決定部920は、ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定するように配置される。
具体的には、候補単語決定部920は、既存のネットワークサーチエンジンを利用して当該ターゲット単語に関するウェブページを検索し、その後検索したウェブページにおける各文を予め定義したテンプレートとマッチングし、テンプレートとマッチングした文を当該ターゲット単語を解釈するための文とすることができる。前述予め定義したテンプレートは、ターゲット単語を解釈・定義するためのテンプレート文型であり、経験により予め設定でき、複数のテンプレートを定義してもよい。候補単語決定部920は、検索したウェブページにおける文が各テンプレートのうちの少なくとも一つとマッチングすれば、当該文はターゲット単語を解釈するための文と見なす。
前述のようにターゲット単語を解釈するための文を検索した後、候補単語決定部920はさらに様々な適当な方式により文におけるターゲット単語に関する単語をターゲット単語の正規化結果を表現する第一の候補単語グループとして決定する。例えば、ある基本的な実施形態では、候補単語決定部920は、単語分割によって文を単語に分割し、当該文とマッチングするテンプレートの統語構造によって、分割して得た単語のうち、ターゲット単語に関する単語を決定し、その後、決定したターゲット単語に関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとする。一実施形態では、候補単語決定部920は、単語分割によって文を単語に分割し、そのうちターゲット単語に関する単語を決定し、その後依存関係及び/又は否定修飾に基づいて決定したターゲット単語に関する単語における少なくとも一つ単語を拡張し、その後拡張した単語、拡張した単語以外のほかの関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとする。
類似度ソーティング部930は、単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語の類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される。
いずれの単語は単語ベクトルで表現でき、二つの単語ベクトル間の距離が近いほど、それらが代表する二つの単語が類似することは、当該分野において公知である。類似度ソーティング部930は、単語ベクトルによって第一の候補単語グループにおける各候補単語とターゲット単語との類似度を算出し、その後類似度が高いか低いかにより、各候補単語に対してソーティングを行う。具体的には、類似度ソーティング部930は、ターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定でき、その後ターゲット単語の単語ベクトルと各候補単語の単語ベクトル間の類似度をターゲット単語と各候補単語との類似度として算出することができる。ターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定するとき、一実施形態では、類似度ソーティング部930は、word embedding等の既存ツールによってターゲット単語と各候補単語それぞれが対応する単語ベクトルを直接決定できる。他の実施形態では、類似度ソーティング部930は、ターゲット単語と各候補単語を文字に分解し、その後既存のツールによって各文字に対応する文字ベクトルを決定し、最後に単語に含まれる各文字の文字ベクトルを加算し、ターゲット単語と各候補単語との単語ベクトルを得られる。ある文字に対応する文字ベクトルは決定できない場合、対応する文字ベクトルをゼロに設定すればよい。
正規化部940は、ソーティングの結果によりターゲット単語の正規化結果を決定するように配置される。
正規化部940は、所定のルールに従い、ソーティングの結果によりターゲット単語の正規化結果を決定すればよい。例えば、ある基本的な実施形態では、正規化部940は、ソーティングした類似度が最も高い候補単語を直接ターゲット単語の正規化結果とすればよい。
一実施形態では、正規化部940は、第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出し、当該信頼性は第一の所定閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすればよい。逆に、類似度が最も高い候補単語であっても、ターゲット単語をよく表現できないと見なす、即ち、ターゲット単語について利用できる正規化結果はできていない。前述第一の所定閾値は必要に応じて設定すればよく、例えば一例として、その値は0.45である。当該実施形態では、正規化部940は第一の採点手段9401(図示せず)、ソーティング手段9402(図示せず)、隣接差算出手段9403(図示せず)、及び分類器手段9404(図示せず)を備える。
第一の採点手段9401は、第一の候補単語グループにおける各候補単語について、候補単語スコアを算出するように配置される。当該第一の採点手段9401は、様々な適当な方式を採用して各候補単語の候補単語スコアを決定する。例えば、一例として、当該候補単語の発生頻度及び当該候補単語に関するテンプレートの良さにより、発生頻度が高いほど及び/又はテンプレートが良いほど、候補単語の候補単語スコアが高くなるよう、当該候補単語の候補単語スコアを決定すればよい。具体的には、この一例に従い、各候補単語について、当該候補単語が検索したターゲット単語を解釈するための文における発生頻度を算出し;前述ターゲット単語を解釈するための文のうち、当該候補単語が含まれる各文を決定し;予め定義したテンプレートのうち、それぞれ前述各文とマッチングする各テンプレートを決定し;各テンプレートそれぞれの所定スコアを決定し;及び最も高い所定スコアと発生頻度に基づいて当該候補単語の候補単語スコアを決定する。
ソーティング手段9402は、候補単語スコアに基づいて第一の候補単語グループにおける各候補単語に対してソーティングを行うように配置される。
隣接差算出手段9403は、各隣接する候補単語ペア間の候補単語スコアの差を算出ように配置される。
分類器手段9404は、少なくとも最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数に基づいて、トレーニングされた分類器を利用して当該類似度が最も高い候補単語の信頼性を算出するように配置される。
ここで、分類器手段9404は最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数を分類器のパラメータとして利用するが、これは一例に過ぎず、他の変数を分類器のパラメータとして選択してもよいことは、理解すべきである。例えば、これらの3つの変数以外、二番目に高い候補単語スコアを分類器のパラメータとして追加してもよい。
また、分類器手段9404が採用する分類器を限定しない。ロジスティック回帰分類器などのような様々なトレーニングされた分類器を採用して類似度が最も高い候補単語の信頼性を算出してもよい。
前述候補単語決定部920は、さらに、ターゲット単語のピンインとの編集距離及びコーパスにおける発生頻度に基づいて、ターゲット単語の正規化結果を表現する第二の候補単語グループを決定するように配置されてもよい。具体的には、候補単語決定部920は、ターゲット単語のピンインを決定するように配置されるピンイン決定手段9201(図示せず)と、ピンインと前述ターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定するように配置されるバックアップ単語決定手段9202(図示せず)と、各バックアップ単語についてそれのコーパスにおける発生頻度を算出するように配置される頻度決定手段9203(図示せず)と、編集距離と発生頻度に基づいて各バックアップ単語の候補単語スコアを決定するように配置される第二採点手段9204(図示せず)と、候補単語スコアが候補単語閾値より大きいバックアップ単語を当該ターゲット単語の正規化結果を表現する第二の候補単語グループとするように配置されるピンイン候補単語決定手段9205(図示せず)と、バックアップ単語決定手段9202が決定した各バックアップ単語について、その各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整するように配置される調整手段9206(図示せず)をさらに備えるように配置されてもよい。前述各手段の具体的な機能と操作は前述した図7の説明と同じであるため、ここでは詳細な説明を省略する。
類似度ソーティング部930は、さらに、単語ベクトルに基づいて、ターゲット単語と第二の候補単語グループにおける各候補単語との類似度を算出し、そのうちターゲット単語との類似度が最も高い候補単語を決定するように配置されてもよい。
正規化部940は、さらに、前述類似度ソーティング部930が第一の候補単語グループにおける類似度が最も高い候補単語(以下、単に「第一の好適単語」と称する)と第二の候補単語グループにおける類似度が最も高い候補単語(以下、単に「第二の好適単語」と称する)を決定した場合、所定のルールに従ってソーティングの結果に基づいてターゲット単語の正規化結果を決定するように配置されてもよい。
例えば、ある基本的な実施形態では、正規化部940は、第一の好適単語と第二の好適単語の類似度を比較し、両方において類似度がより高いものをターゲット単語の正規化結果とすればよい。
一実施形態では、第二の好適単語の類似度が第一候補単語より高くない場合、正規化部940は、第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて第一の好適単語の信頼性を決定し、当該信頼性が第一の所定閾値より大きい場合、第一の好適単語をターゲット単語の正規化結果とする。第一の好適単語が第二の候補単語グループにおいても存在する場合、当該第一の好適単語の信頼性を直接最大値とする。
一実施形態では、第二の好適単語の類似度が第一候補単語より高い場合、正規化部940は、第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて第二の好適単語の信頼性を算出し、当該信頼性は第二の所定閾値より大きい場合、第二の好適単語をターゲット単語の正規化結果とする。ここで、候補単語決定部920が算出した第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて、様々な適当な方式を採用して第二の好適単語の信頼性を算出する。例えば、一例として、候補単語スコアに基づいて第二の候補単語グループにおける各候補単語に対してソーティングを行い、その後M個(Mは自然数であり、Mは第二の候補単語グループの数以下である)の最も高いスコアを加算した和を第二の候補単語グループの数で除算し、その結果を第二の好適単語の信頼性とすればよい。第二の好適単語は第一の候補単語グループにおいても存在する場合、当該第二の好適単語の信頼性を直接最大値とする。
以上、本開示実施例による単語正規化装置を詳細に説明した。当該装置は、非正規化単語の意味により非正規化単語を正規化でき、よって意味変形の非正規化単語についてその正規化結果を得られる。当該装置は、非正規化単語の発音と非正規化単語の意味両方を同時に考慮して非正規化単語を正規化することもでき、よって発音変形の非正規化単語と意味変形の非正規化単語両方についてもその正規化結果が得られる。また、当該装置が、非正規化単語の発音を考慮するとき、音節が類似するか否かにより、各バックアップ単語とターゲット単語との編集距離を調整し、よって発音変形の非正規化単語の正規化結果が改善される。
図10は本発明による別の実施例の単語正規化装置1000の機能配置ブロック図を示す。
図10に示すように、単語正規化装置1000は、取得部1010、類似度ソーティング部1020、信頼性決定部1030、及び正規化部1040を備える。前述各部品の具体的な機能と操作は、前述した図8の説明と基本的に同じであり、重複を回避するために、以下、前述装置を簡略的に説明し、同じ部品に対する詳細的な説明を省略する。
取得部1010は、正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得するように配置される。
取得部1010は、様々な方式で正規化すべきターゲット単語を取得できる。例えばユーザによって直接入力してもよいし、あるいは、既存の新単語検出方法等によって当該正規化すべきターゲット単語が含まれる文から当該ターゲット単語を検出してもよい。前述したように、この実施例による単語正規化方法において、ターゲット単語の正規化結果を表現する候補単語を取得する方法を限定しない。例えば、取得部1010は、第一実施例で説明した方式を採用してターゲット単語の意味に基づいて候補単語セットを取得してもよいし、第二実施例で説明した方式を採用してターゲット単語の発音と意味両方に基づいて候補単語セットを取得してもよいし、さらに、ターゲット単語の発音のみに基づいて候補単語セットを取得してもよいし、あるいは、当該分野のいかなる適当な方法を採用して候補単語セットを取得してもよい。
類似度ソーティング部1020は、単語ベクトルに基づいてターゲット単語と当該候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される。
信頼性決定部1030は、各候補単語における類似度が最も高い候補単語の信頼性を決定するように配置される。ここで、信頼性決定部1030は、様々な適当な方式を採用して各候補単語のうち、類似度が最も高いもの(以下、単に「好適単語」と称する)の信頼性を決定すればよい。例えば、ターゲット単語の意味に基づいて取得した候補単語セットあるいはターゲット単語のピンインに基づいて取得した候補単語セットについては、本発明第一実施例と第二実施例が説明したように好適単語の信頼性を決定すればよい。
正規化部1040は、当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とするように配置される。
正規化部1040が当該類似度が最も高い好適単語の信頼性が予め設定した第三閾値より大きいと決定する場合、当該好適単語はターゲット単語をよく表現できると見なし、よって正規化部1040は当該好適単語を非正規化のターゲット単語の正規化結果とすることができる。逆に、ターゲット単語について納得できる正規化結果が得られないと見なす。
以上、この実施例による単語正規化装置を詳細に説明した。この実施例による単語正規化装置は、非正規化単語の正規化結果を表現する候補単語を決定する方式を限定しない。候補単語を決定した後、その信頼性を評価し、信頼性に基づいて候補単語が納得できるかどうかを決定し、よって正規化単語の正確性が保証される。
<システムハードウェア配置>
以下、図11を参照しながら本開示実施例を実現するための、単語正規化装置に用いる算出装置の模式的なブロック図を説明する。
図11に示すように、算出装置1100は、一つ以上のプロセッサ1102、記憶装置1104、入力装置1106、及び出力装置1108を備え、これらの部品はバスシステム1110及び/又は他の接続機構(図示せず)によって互いに接続される。図11に示す算出装置1100の部品と構成が例示的なものに過ぎず、限定するものではなく、必要に応じて算出装置1100は他の部品と構成を備えてもよいことに留意すべきである。
プロセッサ1102は中央処理手段(CPU)でもよいし、データ処理能力及び/又はコマンド実行能力を有するその他形式の処理手段であればよく、且つ、期待する機能を実行するよう、算出装置1100におけるその他の部材を制御できる。
記憶装置1104は、一つ以上のコンピュータープログラム製品を備えればよい。前述コンピュータープログラム製品は、様々の形態のコンピューター読み可能記憶媒体、例えば揮発性メモリ及び/又は非揮発性メモリを備えればよい。前述揮発性メモリは、例えばランダムアクセスメモリ(RAM)及び/又は高速バッファーメモリ(キャッシュ)などを備えればよい。前述非揮発性メモリは、例えばリードオンリーメモリ(ROM)、ハードディスク、フラッシュメモリ等を備えればよい。前述コンピューター読み可能記憶媒体において一つ以上のコンピュータープログラムコマンドを記憶でき、プロセッサ112は、前述した本開示の実施例の機能及び/又はその他望ましい機能を実現するよう、前述プログラムコマンドを実行できる。前述コンピューター読み可能記憶媒体において様々なアプリケーションプログラムと様々なデータ、例えば前述した正規化すべきターゲット単語、ターゲット単語を解釈する文、第一の候補単語グループ、第二の候補単語グループ、各候補単語の類似度、予め定義した文テンプレート、各候補単語に対応する単語ベクトル、ターゲット単語のピンイン、各候補単語の編集距離、候補単語スコア、好適単語の信頼性、様々な閾値など、を記憶してもよい。
入力装置1106はユーザからの入力情報、例えば正規化すべきターゲット単語などを受信するために用いられ、有線/無線ネットワーク・インターフェース・カード、キーボード、マウス、タッチスクリーン、マイクロフォンなどの様々な入力装置を含んでよい。
出力装置1108は、外部へ様々な情報、例えば非正規化単語の正規化結果を出力でき、それに有線/無線ネットワーク・インターフェース・カード、ディスプレイ、プロジェクタ、テレビなどのような様々な表示装置を含んでよい。
以上、具体的な実施例で本開示の基本的な原理を説明したが、本開示に言及される利点、長所、効果などは例示に過ぎず、限定ではないこと、及びこのような利点、長所、効果などは本開示の各実施例には必須ではないことに留意すべきである。また、前述公開した具体的な詳細は例示することと理解しやすくなることのみを目的とし、限定することではない。前述詳細は、本開示が必ず前述した具体的な詳細を採用して実現することを限定しない。
本開示に係る素子、装置、デバイス、システムのブロック図は例示的な例に過ぎず、必ずブロック図に示す方式で接続/設置/配置することを意図しなく、また暗黙的にもそれを求めない。任意の方式でこのような素子、装置、デバイス、システムを接続/設置/配置できることは、当業者が理解するであろう。「含む」、「包含する」、「備える」等のような用語はオープン語彙であり、「含むがそれに限定しない」を意味し、その表現を置き換えて使用できる。ここで使用される「又は」と「及び」は「及び/又は」を意味し、コンテキスト上明示的に否定すること以外、その表現に置き換えて使用できる。ここで使用される「のような」は、「のような○○であるが、これに限定しない」を意味し、その表現に置き換えて使用できる。
また、ここで使用されるように、「少なくとも一つ」と始まる項目の列挙に使用される「又は」は分離的な列挙を指し、例えば「A、B又はCの少なくとも一つ」等の列挙はA又はB又はC、あるいはAB又はAC又はBC、あるいはABC(即ちAとBとC)を意味する。また、「例示的な」という文言は、説明する例が好適である又は他の例よりよいという意味ではない。
注目すべきは、本開示によるシステムと方法では、各部品又は各ステップは分解及び/又は組み合わせ直しできる。このような分解及び/又は組み合わせ直しは、本開示の同等的な形態と見なすべきことである。
前述技術に対して様々な変更、置換と修正を、請求項により定義した範囲を逸脱することなく可能である。また、本開示の請求項の範囲は、前記の処理、機械、製造、項目の構成、手段、方法と動作の具体的な方面に限らない。前述の対応する方面で基本的に同じ機能を実現する又は基本的に同じ結果を実現する既存又は今後開発する処理、機械、製造、項目の構成、手段、方法又は動作を利用できる。よって、添付した請求項は、その範囲内にあるこのような処理、機械、製造、項目の構成、手段、方法又は動作を含む。
当業者が本開示を実現又は使用できるよう、公開された形態を以上のように説明した。このような形態への様々な修正は、当業者にとって明らかであり、それに、ここで定義した一般的な原理を、本開示の範囲を逸脱することなく他の形態に適用できる。本開示をここで示す形態に限定する意図がなく、本開示の範囲は本開示の原理と新規性のある特徴と一致する最も広い範囲によるものである。
例示と説明を目的で以上説明した。また、この説明は本開示の実施例を本開示の形態に限定する意図がない。以上で、複数の例示的な形態と実施例を検討したが、当業者がいくつかの変形、修正、変更、追加及び組み合わせを認識できる。

Claims (22)

  1. 正規化すべきターゲット単語を取得することと、
    ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、
    単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
    ソーティングの結果に基づいてターゲット単語の正規化結果を決定することとを含む、単語正規化方法。
  2. 前述のネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索することは、
    ネットワークサーチエンジンを利用して当該ターゲット単語に関するウェブページを検索することと、
    検索したウェブページにおける各文を予め定義したテンプレートとマッチングし、テンプレートとマッチングした文を当該ターゲット単語を解釈する文とすることとを含む、請求項1に記載の単語正規化方法。
  3. 前述の前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することは、
    前述文を単語に分割することと、
    当該文とマッチングしたテンプレートの統語構造により、分割して得られた単語のうち、ターゲット単語に関する単語を決定することと、
    前述決定したターゲット単語に関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとすることとを含む、請求項2に記載の単語正規化方法。
  4. 前述の前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することは、
    前述文を単語に分割することと、
    当該文とマッチングするテンプレートの統語構造により、分割して得られた単語のうち、ターゲット単語に関する単語を決定することと、
    依存関係及び/又は否定修飾に基づいて、前述決定したターゲット単語に関する単語のうちの少なくとも一つの単語を拡張することと、
    拡張した後の単語、拡張した後の単語以外のその他関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとすることとを含む、請求項2に記載の単語正規化方法。
  5. 前述依存関係は、限定/形容詞と中心詞との関係、動詞と目的語との関係、副詞と中心詞の構造の少なくとも一つを含む請求項4に記載の単語正規化方法。
  6. 単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出することは、
    ターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定することと、
    ターゲット単語の単語ベクトルと各候補単語の単語ベクトルとの類似度を、ターゲット単語と各候補単語との類似度として算出することとを含む、請求項1ないし5のいずれか一項に記載の単語正規化方法。
  7. 前述のターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定することは、
    ターゲット単語を文字に分割し、各文字に対応する文字ベクトルを決定することと、
    各文字ベクトルを加算し、ターゲット単語に対応する単語ベクトルを得ることと、
    各候補単語を文字に分割し、各文字に対応する文字ベクトルを決定することと、
    各候補単語について、それの各文字に対応する文字ベクトルを加算して、当該候補単語に対応する単語ベクトルを得ることとを含む、請求項6に記載の単語正規化方法。
  8. 前述のソーティングの結果に基づいてターゲット単語の正規化結果を決定することは、
    第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて、第一の候補単語グループのうち、類似度が最も高い候補単語の信頼性を決定することと、
    当該信頼性が第一の所定閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを含む、請求項2に記載の単語正規化方法。
  9. 第一の候補単語グループのうち、類似度が最も高い候補単語の信頼性を決定することは、
    第一の候補単語グループにおける各候補単語について、候補単語スコアを算出することと、
    候補単語スコアに基づいて、第一の候補単語グループにおける各候補単語に対してソーティングを行うことと、
    各隣接する候補単語ペア間の候補単語スコアの差を算出することと、
    少なくとも最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数に基づき、トレーニングされた分類器を利用して当該類似度が最も高い候補単語の信頼性を算出することとを含む、請求項8に記載の単語正規化方法。
  10. 前述の第一の候補単語グループにおける各候補単語について、候補単語スコアを算出することは、
    当該候補単語が検索したターゲット単語を解釈するための文における発生頻度を算出することと、
    前述ターゲット単語を解釈するための文のうち、当該候補単語が含まれる各文を決定することと、
    前述予め定義したテンプレートのうち、それぞれ前述各文とマッチングする各テンプレートを決定することと、
    前述各テンプレートそれぞれの所定スコアを決定することと、
    最も高い所定スコアと前述発生頻度に基づいて当該候補単語の候補単語スコアを決定することとを含む、請求項9に記載の単語正規化方法。
  11. ターゲット単語のピンインを決定することと、
    ピンインと前述ターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定することと、
    各バックアップ単語についてそれがコーパスにおける発生頻度を算出することと、
    編集距離と発生頻度に基づいて各バックアップ単語の候補単語スコアを決定することと、
    候補単語スコアが候補単語閾値より大きいバックアップ単語を、当該ターゲット単語の正規化結果を表現する第二の候補単語グループとすることとをさらに含む、請求項1に記載の単語正規化方法。
  12. 各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することをさらに含む、請求項11に記載の単語正規化方法。
  13. 前述の各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することは、
    当該バックアップ単語における各音節をそれぞれ、ターゲット単語における対応する音節と比較することと、
    当該バックアップ単語においてN個の音節がターゲット単語におけるN個の対応音節と異なるが類似する場合、当該バックアップ単語とターゲット単語との編集距離をN(Nは自然数である)個の第一距離で減少することとを含む、請求項12に記載の単語正規化方法。
  14. 前述の各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することは、
    当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節と類似する場合、当該バックアップ単語とターゲット単語との編集距離を第二距離で減小することと、
    当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節と異なりかつ類似しない場合、当該バックアップ単語とターゲット単語との編集距離を第三距離で増加することとをさらに含む、請求項13に記載の単語正規化方法。
  15. 単語ベクトルに基づいてターゲット単語と第二の候補単語グループにおける各候補単語との類似度を算出し、そのうちターゲット単語との類似度が最も高い候補単語を決定することとをさらに含む、請求項11ないし14のいずれか一項に記載の単語正規化方法。
  16. 前述のソーティングの結果に基づいてターゲット単語正規化の結果を決定することは、
    第一の候補単語グループにおける類似度が最も高い候補単語を決定することと、
    第二の候補単語グループにおける類似度が最も高い候補単語の類似度が第一の候補単語グループにおける類似度が最も高い候補単語より高い場合、第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて当該第二の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出することと、
    当該信頼性が第二の所定閾値より大きい場合、第二の候補単語グループにおける類似度が最も高い候補単語をターゲット単語の正規化結果とすることを含む、請求項15に記載の単語正規化方法。
  17. 前述のソーティングの結果に基づいてターゲット単語正規化の結果を決定することは、
    第二の候補単語グループにおける類似度が最も高い候補単語の類似度が第一の候補単語グループにおける類似度が最も高い候補単語より高くない場合、第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて当該第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出することと、
    当該信頼性が第一の所定閾値より大きい場合、第一の候補単語グループにおける当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることをさらに含む、請求項16に記載の単語正規化方法。
  18. 第一の候補単語グループにおける類似度が最も高い候補単語は第二の候補単語グループにおいても存在する場合、当該第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を最大値にすることと、
    第二の候補単語グループにおける類似度が最も高い候補単語は第一の候補単語グループにおいても存在する場合、当該第二の候補単語グループにおける類似度が最も高い候補単語の信頼性を最大値にすることとをさらに含む、請求項17に記載の単語正規化方法。
  19. 正規化すべきターゲット単語を取得するように配置される取得部と、
    ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語をターゲット単語の正規化結果を表現する第一の候補単語グループとして決定するように配置される候補単語決定部と、
    基幹単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、
    ソーティングの結果に基づいてターゲット単語の正規化結果を決定するように配置される正規化部とを備える、単語正規化装置。
  20. プロセッサと、
    メモリと、
    前記プロセッサによって実行されるとき、
    正規化すべきターゲット単語を取得することと、
    ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、
    単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
    ソーティングの結果に基づいてターゲット単語の正規化結果を決定することとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、単語正規化装置。
  21. 正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、
    単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
    各候補単語のうち、類似度が最も高いものの信頼性を決定することと、
    当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを含む、単語正規化方法。
  22. ソース言語における非正規化単語を検出することと、
    当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、
    単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
    各候補単語のうち、類似度が最も高いものの信頼性を決定することと、
    当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳することとを含む、機械翻訳方法。
JP2017217389A 2016-11-10 2017-11-10 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 Active JP7120751B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610989788.2 2016-11-10
CN201610989788.2A CN108073565A (zh) 2016-11-10 2016-11-10 词语规范化的方法和设备及机器翻译方法和设备

Publications (2)

Publication Number Publication Date
JP2018077850A true JP2018077850A (ja) 2018-05-17
JP7120751B2 JP7120751B2 (ja) 2022-08-17

Family

ID=62150615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017217389A Active JP7120751B2 (ja) 2016-11-10 2017-11-10 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置

Country Status (2)

Country Link
JP (1) JP7120751B2 (ja)
CN (1) CN108073565A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614463A (zh) * 2018-10-24 2019-04-12 阿里巴巴集团控股有限公司 文本匹配处理方法及装置
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN112463969A (zh) * 2020-12-08 2021-03-09 上海烟草集团有限责任公司 卷烟品牌和品规行话新词的检测方法、系统、设备及介质
CN112559559A (zh) * 2020-12-24 2021-03-26 中国建设银行股份有限公司 清单相似度的计算方法、装置、计算机设备和存储介质
KR20210040318A (ko) * 2020-06-27 2021-04-13 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램
CN112650791A (zh) * 2020-12-29 2021-04-13 招联消费金融有限公司 字段处理方法、装置、计算机设备和存储介质
CN113221557A (zh) * 2021-05-28 2021-08-06 中国工商银行股份有限公司 一种基于神经网络的数据贯标管理方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804423B (zh) * 2018-05-30 2023-09-08 深圳平安医疗健康科技服务有限公司 医疗文本特征提取与自动匹配方法和系统
CN112365374B (zh) * 2020-06-19 2022-04-19 支付宝(杭州)信息技术有限公司 标准案由确定方法、装置和设备
CN111931477B (zh) * 2020-09-29 2021-01-05 腾讯科技(深圳)有限公司 文本匹配方法、装置、电子设备以及存储介质
CN116415582B (zh) * 2023-05-24 2023-08-25 中国医学科学院阜外医院 文本处理方法、装置、计算机可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01273171A (ja) * 1988-04-25 1989-11-01 Nippon Telegr & Teleph Corp <Ntt> 文書書き換え方式および自動翻訳方式
JP2005302043A (ja) * 2004-04-15 2005-10-27 Microsoft Corp 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング
JP2009217544A (ja) * 2008-03-11 2009-09-24 Yahoo Japan Corp 文字ベクトルを用いた略語生成装置、方法及びプログラム
JP2012203822A (ja) * 2011-03-28 2012-10-22 Kddi Corp 中国語入力装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
CN105068998B (zh) * 2015-07-29 2017-12-15 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN105183720B (zh) * 2015-08-05 2019-07-09 百度在线网络技术(北京)有限公司 基于rnn模型的机器翻译方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01273171A (ja) * 1988-04-25 1989-11-01 Nippon Telegr & Teleph Corp <Ntt> 文書書き換え方式および自動翻訳方式
JP2005302043A (ja) * 2004-04-15 2005-10-27 Microsoft Corp 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング
JP2009217544A (ja) * 2008-03-11 2009-09-24 Yahoo Japan Corp 文字ベクトルを用いた略語生成装置、方法及びプログラム
JP2012203822A (ja) * 2011-03-28 2012-10-22 Kddi Corp 中国語入力装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
渡部 啓吾 外3名: "検索エンジンを用いた関連語の自動抽出", 知能と情報, vol. 第23巻 第5号, JPN6021047882, 15 October 2011 (2011-10-15), JP, pages 739 - 748, ISSN: 0004655905 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614463A (zh) * 2018-10-24 2019-04-12 阿里巴巴集团控股有限公司 文本匹配处理方法及装置
CN109614463B (zh) * 2018-10-24 2023-02-03 创新先进技术有限公司 文本匹配处理方法及装置
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN110852100B (zh) * 2019-10-30 2023-07-21 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
JP2021144742A (ja) * 2020-06-27 2021-09-24 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 類似度処理方法、装置、電子設備、記憶媒体、及びプログラム
KR102606514B1 (ko) * 2020-06-27 2023-11-29 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램
KR20210040318A (ko) * 2020-06-27 2021-04-13 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램
CN112463969A (zh) * 2020-12-08 2021-03-09 上海烟草集团有限责任公司 卷烟品牌和品规行话新词的检测方法、系统、设备及介质
CN112559559A (zh) * 2020-12-24 2021-03-26 中国建设银行股份有限公司 清单相似度的计算方法、装置、计算机设备和存储介质
CN112650791A (zh) * 2020-12-29 2021-04-13 招联消费金融有限公司 字段处理方法、装置、计算机设备和存储介质
CN112650791B (zh) * 2020-12-29 2023-12-26 招联消费金融有限公司 字段处理方法、装置、计算机设备和存储介质
CN113221557A (zh) * 2021-05-28 2021-08-06 中国工商银行股份有限公司 一种基于神经网络的数据贯标管理方法及装置

Also Published As

Publication number Publication date
CN108073565A (zh) 2018-05-25
JP7120751B2 (ja) 2022-08-17

Similar Documents

Publication Publication Date Title
JP2018077850A (ja) 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
KR102085217B1 (ko) 특허문서의 유사도 판단 방법, 장치 및 시스템
CN107451126B (zh) 一种近义词筛选方法及系统
Zhang et al. Entity linking with effective acronym expansion, instance selection and topic modeling
Chen et al. Unsupervised induction and filling of semantic slots for spoken dialogue systems using frame-semantic parsing
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
US11645475B2 (en) Translation processing method and storage medium
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
WO2019019860A1 (zh) 训练分类模型的方法与装置
US20170220561A1 (en) Method of creating translation corpus
US10592542B2 (en) Document ranking by contextual vectors from natural language query
JP2013544397A5 (ja)
WO2011104754A1 (ja) 検索装置及び検索プログラム
Malandrakis et al. Kernel models for affective lexicon creation
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
CN110162630A (zh) 一种文本去重的方法、装置及设备
Nguyen et al. From word segmentation to POS tagging for Vietnamese
JP2018055142A (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
Aquino et al. Keyword identification in spanish documents using neural networks
Nehar et al. Rational kernels for Arabic root extraction and text classification
JP7323308B2 (ja) 同義語判定方法、同義語判定プログラム、および、同義語判定装置
Mori et al. Language Resource Addition: Dictionary or Corpus?
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Malandrakis et al. Affective language model adaptation via corpus selection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220804

R150 Certificate of patent or registration of utility model

Ref document number: 7120751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150