JP2018501597A - 類似性特定方法、装置、端末、プログラム及び記録媒体 - Google Patents

類似性特定方法、装置、端末、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2018501597A
JP2018501597A JP2017553299A JP2017553299A JP2018501597A JP 2018501597 A JP2018501597 A JP 2018501597A JP 2017553299 A JP2017553299 A JP 2017553299A JP 2017553299 A JP2017553299 A JP 2017553299A JP 2018501597 A JP2018501597 A JP 2018501597A
Authority
JP
Japan
Prior art keywords
cost
character string
sequence
edit distance
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017553299A
Other languages
English (en)
Other versions
JP6321306B2 (ja
Inventor
平仄 汪
平仄 汪
涛 ▲張▼
涛 ▲張▼
▲飛▼ ▲龍▼
▲飛▼ ▲龍▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Publication of JP2018501597A publication Critical patent/JP2018501597A/ja
Application granted granted Critical
Publication of JP6321306B2 publication Critical patent/JP6321306B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Abstract

本発明は、類似性特定方法、装置、端末、プログラム及び記録媒体に関し、自然言語処理分野に関する。上記の方法は、第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語をそれぞれ含む第1シーケンス及び第2シーケンスを得るステップと、予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、第1文字列と第2文字列との間の編集距離を特定するステップと、編集距離、及び、第1シーケンスから第2シーケンスに変換するために行う各操作の情報に基づいて、第1文字列と第2文字列との間の類似性を特定するステップとを含む。第1文字列及び第2文字列を、第1シーケンス及び第2シーケンスに単語分割することにより、編集距離を特定する時に、文字列の中の文字に基づいて実現するのではなく、文字列の中の単語に基づいて実現する。ここで、文字列の中の各単語は少なくとも一つの文字を含む可能があるため、編集距離に基づいて類似性を特定する時に、文字列の中の各文字同士との間の関連関係を組み合わせたので、特定した類似性がもっと正確になる。【選択図】図1

Description

相互参照
本願は、出願番号がCN201510882468.2であって、出願日が2015年12月03日である中国特許出願に基づいて優先権を主張し、当該中国特許出願のすべての内容を援用する。
本発明は、自然言語処理分野に関し、特に、類似性特定方法、装置及び端末に関する。
自然言語処理分野において、文字列同士の間の類似性を特定する方法は、一つの基本的な問題であり、テキストのクラスタリング、情報検索、等のような、多くの場面に適用される。このため、文字列同士の間の類似性をどのように特定するのかは、研究者たちに幅広く注目されている。
関連技術で、文字列同士の間の類似性を特定する時に、二つの文字列の間の編集距離を算出して実現する。具体的に、これら二つの文字列をそれぞれ単語分割して各文字を得た後に、一つの文字列中の文字に対して、削除操作、挿入操作、及び切替操作を行なって、一つの文字列をもう一つの文字列に変換し、続いて、一つの文字列からもう一つの文字列に変換するのにかかる最小の操作回数を算出して、当該最小の操作回数を、これら二つの文字列同士の間の編集距離として、編集距離に基づいてこれら二つの文字列同士の間の類似性を算出する。
本発明は、類似性特定方法、装置及び端末を提供する。
本発明の実施例に係る第1の態様によると、類似性特定方法を提供する。
上記方法は、
第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語をそれぞれ含む第1シーケンス及び第2シーケンスを得るステップと、
予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、上記第1文字列と上記第2文字列との間の編集距離を特定するステップと、
上記編集距離、及び、上記第1シーケンスを上記第2シーケンスに変換するために行なった各操作の情報に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップと
を含む。
本発明の実施例に係る第2の態様によると、類似性特定装置を提供する。
上記装置は、
第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語をそれぞれ含む第1シーケンス及び第2シーケンスを得るための単語分割モジュールと、
予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、上記第1文字列と上記第2文字列との間の編集距離を特定するための第1特定モジュールと、
上記編集距離、及び、上記第1シーケンスを上記第2シーケンスに変換するために行なった各操作の情報に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するための第2特定モジュールと
を備える。
本発明の実施例に係る第3の態様によると、端末を提供する。
上記端末は、
プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリと
を備え、
前記プロセッサは、
第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語をそれぞれ含む第1シーケンス及び第2シーケンスを得るし、
予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、上記第1文字列及び上記第2文字列との間の編集距離を特定し
上記編集距離、及び、上記第1シーケンスを上記第2シーケンスに変換するために行なった各操作の情報に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するように構成される。
本発明の実施例が提供する構成の有益な効果は以下のとおりである。
第1文字列及び第2文字列を、それぞれ、第1シーケンス及び第2シーケンスに単語分割して、第1文字列から第2文字列に変換する時の編集距離を特定する時に、第1文字列及び第2文字列の中の各文字に基づいて実現するのではなく、第1シーケンス及び第2シーケンスの中の各単語に基づいて実現する。ここで、文字列の中の各単語は少なくとも一つの文字を含む可能があるため、編集距離に基づいて類似性を特定する時に、文字列の中の各文字同士との間の関連関係を組み合わせたので、特定した類似性がもっと正確になる。
以上の統括な記述と以下の細部記述は、ただ例示的なものであり、本発明を制限するものではないと、理解するべきである。
ここでの図面は、明細書に合併されて本明細書の一部を構成して本発明に合致する実施例を示し、明細書とともに本発明の原理の説明するに用いられる。
例示的な一実施例に係る類似性特定方法を示すフローチャートである。 例示的な一実施例に係る類似性特定方法を示すフローチャートである。 例示的な一実施例に係る類似性特定装置を示すブロック図である。 例示的な一実施例に係る第2特定モジュールを示すブロック図である。 例示的な一実施例に係る第2特定ユニットを示すブロック図である。 例示的な一実施例に係る第2特定ユニットを示すブロック図である。 例示的な一実施例に係る類似性特定装置を示すブロック図である。 例示的な一実施例に係る類似性特定装置を示すブロック図である。 例示的な一実施例に係る類似性特定装置を示すブロック図である。 例示的な一実施例に係る端末を示すブロック図である。 例示的な一実施例に係るサーバを示すブロック図である。
ここで、例示的な実施例を詳細に説明する。また、説明中の例は、図面に示している。以下の記述において、図面を説明する際に特に説明しない場合、異なる図面中の同一の符号は、同一或は同様な要素を意味する。以下の例示的な実施例において記述する実施方法は、本発明に合致するすべての実施方法を代表しない。逆に、それらは、添付の特許請求の範囲において詳細に記述された、本発明のいくつかの態様と合致する装置、及び方法の例に過ぎない。
自然言語処理分野において、文字列同士の間の類似性を特定する方法は、一つの基本的な問題であり、テキストのクラスタリング、情報検索、等のような、多くの場面に適用される。本発明の実施例は、特定する二つの文字列同士の間の類似性をもっと正確にするために、類似性特定方法を提供する。図1は、例示的な一実施例に係る類似性特定方法を示すフローチャートである。本発明の実施例によって提供する類似性特定方法は、端末に適用される。図1に示したように、本発明の実施例によって提供する類似性特定方法は、以下のステップを含む。
ステップS101において、第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語がそれぞれ含まれた第1シーケンス及び第2シーケンスを得る。
ステップS102において、予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、第1文字列及び第2文字列との間の編集距離を特定する。
ステップS103において、編集距離、及び、第1シーケンスから第2シーケンスに変換するために行う各操作の情報に基づいて、第1文字列と第2文字列との間の類似性を特定する。
本発明の実施例によって提供する方法によると、第1文字列及び第2文字列を、それぞれ、第1シーケンス及び第2シーケンスに単語分割して、第1文字列から第2文字列に変換する時の編集距離を特定する時に、第1文字列及び第2文字列の中の各文字に基づいて実現するのではなく、第1シーケンス及び第2シーケンスの中の各単語に基づいて実現する。ここで、文字列の中の各単語は少なくとも一つの文字を含む可能があるため、編集距離に基づいて類似性を特定する時に、文字列の中の各文字同士との間の関連関係を組み合わせたので、特定した類似性がもっと正確になる。
もう一実施例において、編集距離、及び、第1シーケンスから第2シーケンスに変換するために行う各操作の情報に基づいて、第1文字列と第2文字列との間の類似性を特定するステップは、
第1シーケンスから第2シーケンスに変換するために行う各操作情報の中の切替操作情報を取得するステップと、
各切替操作情報に基づいて、第1シーケンス及び第2シーケンスの両方の中に同時に存在する二つの単語の数である、ペアリングの数を特定するステップと、
編集距離、ペアリングの数、各操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の類似性を特定するステップと
を含む。
もう一実施例において、各操作包括は、切替操作、及び、交換操作を含み、
編集距離、ペアリングの数、各操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の類似性を特定するステップは、
編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の最小のセマンティックの編集距離を特定するステップと、
最小のセマンティックの編集距離を正規化して、正規化結果を得るステップと、
正規化結果に基づいて、第1文字列と第2文字列との間の類似性を特定するステップと
を含む。
もう一実施例において、各操作は、切替操作、及び、交換操作、挿入操作、及び、削除操作の中の少なくとも一つを含み、
編集距離、ペアリングの数、各操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の類似性を特定するステップは、
編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の第1セマンティックの編集距離を特定するステップと、
挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の第2セマンティックの編集距離を特定するステップと、
第1セマンティックの編集距離、及び、第2セマンティックの編集距離に基づいて、第1文字列と第2文字列との間の類似性を特定するステップと
を含む。
もう一実施例において、当該方法は、
切替操作と交換操作との間の関係に基づいて、切替操作の操作コスト及び交換操作の操作コストを特定するステップと、
切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト、削除操作の操作コスト及び切替操作の操作コストを特定するステップと
をさらに含む。
もう一実施例において、当該方法は、
切替操作と交換操作との間の関係に基づいて、2×切替操作の操作コスト>交換操作の操作コストとして特定するステップと、
切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト+削除操作の操作コスト>切替操作の操作コストとして特定するステップと
をさらに含む。
もう一実施例において、当該方法は、
挿入操作と削除操作との間の関係に基づいて、挿入操作の操作コスト=削除操作の操作コストとして特定するステップ
をさらに含む。
もう一実施例において、予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、第1文字列及び第2文字列との間の編集距離を特定するステップは、
予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、以下の式1に従って、第1文字列及び第2文字列との間の編集距離を特定するステップを含み、
式1:minCost[i, j]=min(
minCost[i-1, j]+cost(S),
minCost[i, j-1]+cost(C),
minCost[i-1, j-1]+cost(T))
式1の中で、iは、第1シーケンス中のi番目の単語であり、jは、第2シーケンス中のj番目の単語であり、cost(S)は、削除操作の操作コストであり、cost(C)は、挿入操作の操作コストであり、cost(T)は、切替操作の操作コストである。
もう一実施例において、編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の最小のセマンティックの編集距離を特定するステップは、
編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式2に従って、第1文字列と第2文字列との間の最小のセマンティックの編集距離を特定するステップを含み、
式2:minCost(S1, S2)=d-p(2cost(T)-cost(J))
式2の中で、S1及びS2は、それぞれ第1文字列及び第2文字列であり、minCost(S1, S2)は、最小のセマンティックの編集距離であり、dは、編集距離であり、pは、ペアリングの数であり、cost(J)は、交換操作の操作コストであり、cost(T)は、切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である。
もう一実施例において、編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の第1セマンティックの編集距離を特定するステップは、
編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式3に従って、第1文字列と第2文字列との間の第1セマンティックの編集距離を特定するステップを含み、
式3:minCost(S1, S2)=d-p(2cost(T)-cost(J))
式3の中で、S1及びS2は、それぞれ第1文字列及び第2文字列であり、minCost(S1, S2)は、第1セマンティックの編集距離であり、dは、編集距離であり、pは、ペアリングの数であり、cost(J)は、交換操作の操作コストであり、cost(T)は、切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である。
もう一実施例において、挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の第2セマンティックの編集距離を特定するステップは、
挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、以下の式4に従って、第1文字列と第2文字列との間の第2セマンティックの編集距離を特定するステップを含み、
式4:normFact(S1, S2)=min(n, m)cost(T)+(max(n, m)-min(n, m))×costM
costM=cost(C), if n<m
costM=cost(S), if n>m
式4の中で、normFact(S1, S2)は、第2セマンティックの編集距離であり、nは、第1シーケンスの単語の数であり、mは、第2シーケンスの単語の数であり、cost(T)は、切替操作の操作コストであり、cost(S)は、削除操作の操作コストであり、cost(C)は、挿入操作の操作コストである。
もう一実施例において、第1セマンティックの編集距離、及び、第2セマンティックの編集距離に基づいて、第1文字列と第2文字列との間の類似性を特定するステップは、
第1セマンティックの編集距離、及び、第2セマンティックの編集距離に基づいて、以下の式5に従って、第1文字列と第2文字列との間の類似性を特定するステップを含み、
式5:sim(S1, S2)=1-minCost(S1, S2)/normFact(S1, S2)
式5の中で、sim(S1, S2)は、第1文字列と第2文字列との間の類似性であり、minCost(S1, S2)は、第1セマンティックの編集距離であり、normFact(S1, S2)は、第2セマンティックの編集距離である。
上記の全てのオプション的な構成を、任意の組合せによって、本発明のオプション的な実施例を実現することができ、ここでは繰り返して説明しない。
図2は、例示的な一実施例に係る類似性特定方法を示すフローチャートである。当該類似性特定方法は、端末に適用される。図2に示したように、本発明の実施例によって提供する類似性特定方法は、以下のステップを含む。
ステップS201において、第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、第1シーケンス及び第2シーケンスを得る。
文字列の中の各文字同士の間は、完全に独立したのではなく、一定の関連関係を有する可能がある。即ち、ある隣接する二つの文字は、分割できない一つの整体である可能がある。例えば、「今日、私は香山を登る」の中の「今日」及び「香山を」は、それぞれ、分割できない一つの整体である。このため、本発明の実施例は、二つの文字列同士の間の類似性を特定する時に、二つの文字列をそれぞれ各文字に単語分割するのではなく、二つの文字列を単語分割して、各文字列を各単語に単語分割し、単語分割された後の文字列は少なくとも一つの単語を含む。説明の便利のために、本発明の実施例は、類似性を特定しようとする二つの文字列を、それぞれ、第1文字列及び第2文字列として定義し、且つ、第1文字列を各単語に単語分割した後に、第1シーケンスを得るし、第2文字列を各単語に単語分割した後に、第2シーケンスを得る。ここで、第1シーケンス及び第2シーケンスは、それぞれ、少なくとも一つの単語を含む。
例えば、第1文字列及び第2文字列が、それぞれ、S1及びS2であると、第1シーケンス及び第2シーケンスは、それぞれ、(S11, S12, S13、… 、S1n)及び(S21, S22, S23、… 、S2m)である。ここで、S1の中の単語の数はnであり、S2の中の単語の数はmである。
本発明の実施例においては、第1文字列及び第2文字列の言語に対して、具体的に、限定しない。例えば、第1文字列及び第2文字列は、中国語、或は、英語等である。ここで、第1文字列及び第2文字列は、それぞれ、一つのセンテンスであってもよい。例えば、第1文字列は、”今日、私は香山を登る”であり、第2文字列は、”私は、今日香山を登る”である。
ステップS202において、切替操作と交換操作との間の関係に基づいて、切替操作の操作コスト及び交換操作の操作コストを特定し、切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト、削除操作の操作コスト及び切替操作の操作コストを特定する。
従来の文字列同士の間の類似性を特定する方法によると、一つの文字列をもう一つの文字列に変換する時に、一般的に、挿入操作、削除操作及び切替操作のような3種の編集操作があり、且つ、これら3種の操作の操作コストは同一である。しかし、文字列の中で、ある成分が文字列の中の互いに異なる位置に出現する時に、文字列全体の意味は、変わらない。例えば、「今日、私は香山に行くつもりである」、「私は、今日香山に行くつもりである」、及び、「私のつもりは、今日、香山に行く」の中で、各単語の文字列の中の位置が互いに異なるが、これら三つの文字列の意味は、同一である。このため、本発明の実施例において、従来の挿入操作、削除操作及び切替操作を基に、交換操作を新たに定義し、また、各操作同士の間の関係に基づいて、互いに異なる操作に対して、互いに異なる操作コストを定義した。
本発明の実施例においては、各操作に割り当てる操作コストの具体的な数値にたいして、具体的に、限定しない。しかし、本発明の実施例においては、具体的に実施する時に、交換操作を2回の切替操作に分解できるため、切替操作と交換操作との間の関係に基づいて、切替操作コスト及び交換操作コストを特定できる。例えば、本発明の実施例で定義する切替操作コストと交換操作コストとの間の関係は、“2×切替操作の操作コスト>交換操作の操作コスト”を満たす。
即ち、2cost(T)-cost(J)>0。
ここで、cost(T)は、切替操作の操作コストである、cost(J)は、交換操作の操作コストである。
また、本発明の実施例においては、1回の切替操作を、1回の削除操作及び1回の挿入操作に分解できるため、切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作コスト及び削除操作コストを特定できる。例えば、本発明の実施例で定義する切替操作コスト、交換操作コスト及び削除操作コストとの間の関係は、「挿入操作の操作コスト+削除操作の操作コスト>切替操作の操作コスト」を満たす。さらに、「切替操作の操作コストは、挿入操作の操作コスト及び削除操作の操作コストの中の最大値より大きい」と特定する。一例として、このような関係は、以下の式のとおりである。
max(cost(C), cost(S)) < cost(T) < cost(C)+cost(S)。
ここで、cost(S)は、削除操作の操作コストであり、cost(C)は、挿入操作の操作コストである。
なお、類似性に対称性があれば、即ち、第1文字列の中に一つの文字を挿入することが、第2文字列の中から一つの文字を削除することと、等しいであれば、挿入操作と削除操作との間の関係に基づいて、「挿入操作コスト=削除操作コスト」を特定できる。当然ながら、類似性に対称性がない情況に対して、挿入操作コストが削除操作コストと等しくないか、或いは、等しいと定義してもよく、本発明の実施例においては、これに対して、具体的に、限定しない。
ステップS203において、切替操作の操作コスト、削除操作の操作コスト及び挿入操作の操作コストに基づいて、予め定義した編集距離アルゴリズムを生成する。
一例として、予め定義した編集距離アルゴリズムは、以下の式1のとおりである。
式1:minCost[i, j]=min(
minCost[i-1, j]+cost(S),
minCost[i, j-1]+cost(C),
minCost[i-1, j-1]+cost(T))
式1の中で、iは、第1シーケンス中のi番目の単語であり、jは、第2シーケンス中のj番目の単語であり、cost(S)は、削除操作の操作コストであり、cost(C)は、挿入操作の操作コストであり、cost(T)は、切替操作の操作コストである。
当該式1から分かるように、本発明の実施例の予め定義した編集距離アルゴリズムは、動的計画法アルゴリズムである。当該予め定義した編集距離アルゴリズムは、本発明の実施例において予め定義した削除操作の操作コスト、挿入操作の操作コスト及び切替操作の操作コストに基づいて得たものである。
ステップS202及びステップS203は、類似性を特定する前に実行すべきなステップであり、二つの文字列同士の間の類似性を特定する度に実行すべきなステップではなく、類似性を特定する前に、各操作の操作コスト及び予め定義した編集距離アルゴリズムを既に特定したことを保証するためのステップであることを、説明する必要がある。
ステップS204において、予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、第1文字列及び第2文字列との間の編集距離を特定する。
二つの文字列同士の間の編集距離とは、その中の一つの文字列をもう一つの文字列に変換するのにかかる最少の編集操作回数である。ここで、各種の編集操作は、それぞれ、一つの操作コストに対応されるため、変換する時の合計の操作コストを、編集距離とする。本発明の実施例において、文字列同士の間の変換を行う時に、行うことができる編集操作は、切替操作、挿入操作、削除操作及び交換操作を含む。
本発明の実施例においては、上記の式1によって予め定義した編集距離アルゴリズムに組み合わせて、予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、第1文字列と第2文字列との間の編集距離を特定した後に、予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、上記の式1に従って、第1文字列と第2文字列との間の編集距離を算出できる。式1の編集距離を算出する具体的な原理は、従来の動的計画法アルゴリズムによって編集距離を算出する原理と同一であり、本発明の実施例においては、これに対して詳細に説明しない。
ステップS205において、編集距離、及び、第1シーケンスから第2シーケンスに変換するために行う各操作の情報に基づいて、第1文字列と第2文字列との間の類似性を特定する。
本発明の実施例において、第1シーケンスから第2シーケンスに変換するために行なった各操作の情報は、操作の種類、各種類の操作の操作回数、及び、各種類の操作の操作コストを含む。
本発明の実施例においては、互いに異なる操作に対して互いに異なる操作コストを予め定義したので、二つの文字列同士の間の編集距離に対する定義に組み合わると、第1文字列から第2文字列に変換するのにかかる各操作の操作コストは、編集距離に直接影響を及ぼす。このため、第1文字列と第2文字列との間の類似性を特定する時に、編集距離、及び、編集距離を得るために行なった各操作の操作情報に基づいて、特定する。操作情報は、操作コストを含み、編集距離を得る時の各操作の操作コストは、ステップS202において予め設定されている。
例えば、第1文字列から第2文字列に変換する時に行なった操作が、2回の挿入操作、1回の削除操作、1回の交換操作、及び、1回の切替操作を含むと、第1文字列及び第2文字列との間の編集距離dは、d=2cost(C)+cost(S))+cost(T)+cost(J)である。この時、第1文字列と第2文字列との間の類似性を特定する時に、編集距離、挿入操作の操作コスト、削除操作の操作コスト、交換操作の操作コスト、及び、切替操作の操作コストに基づいて、特定する。
一例として、編集距離、及び、第1シーケンスから第2シーケンスに変換するために行う各操作の情報に基づいて、第1文字列と第2文字列との間の類似性を特定する時に、以下のステップS2051乃至ステップS2053によって実現するが、これらに限定されない。
ステップS2051において、編集距離を得る時に、第1シーケンスから第2文字列に変換する時に行なった各操作情報の中の切替操作情報を取得する。
切替操作とは、第1文字列の中のある一つの単語をもう一つの単語に切り替える操作である。本発明の実施例においては、編集距離を特定する同時に、変換過程において行なった各切替操作の情報を統計して、各切替操作の情報を、指定された集合中に記録する。ここで、切替操作の情報は、切替操作の被切替単語、及び、被切替単語のシーケンス中の位置を含む。このため、当該指定された集合中に記録するデータは、被切替単語、及び、被切替単語の第1シーケンス中の位置を含む。例えば、第1文字列が「私は今日香山に行くつもりである」であり、第1シーケンスが「私は−今日−香山に−行く−つもりである」であり、且つ、被切替単語が「香山に」及び「つもりである」であると、指定された集合中に記録する切替操作の情報は、「香山に−3、つもりである−5」である。このため、指定された集合の中から編集距離を取得する時に、第1文字列から第2文字列に変換する時に行なった各操作情報の中の切替操作情報を得ることができ、具体的には、各切替操作の被切替単語、及び、各被切替単語の第1シーケンス中の位置を得ることができる。
なお、本発明の実施例において、切替操作と交換操作との間の関係に基づいて、交換操作を新たに定義し、且つ、2cost(T)-cost(J)>0を予め定義したため、2回の切替操作のコストが1回の交換操作のコストより大きいことが分かる。このため、もし、第1文字列を第2文字列に変換する時に、1回の交換操作によって実現できれば、2回の切替操作によって実現しない。このため、指定された集合中に、第1シーケンス中の被切替単語、及び、各被切替単語の第1シーケンス中の位置を記録するほか、さらに、指定された集合中の任意の二つの単語が第2シーケンス中に存在するか否かを、特定する。もし、任意の二つの単語が第2シーケンス中に存在すると、指定された集合中に、さらに、これら二つの単語及び各単語の第2シーケンス中の位置を記録する。
例えば、第1文字列が「私は、今日香山に行くつもりである」であり、第1シーケンスが「私は−今日−香山に−行く−つもりである」であり、且つ、被切替単語が「香山」及び「つもりである」であり、第2文字列が「今日、私は香山に行くつもりである」であり、第2シーケンスが「今日−私は−香山に−行く−つもりである」であると、被切替単語である「香山」及び「つもり」が、第1シーケンス及び第2シーケンスにすべて存在するため、指定された集合中に記録するデータは、「香山に−S13、つもりである−S15、香山−S23、つもりである−S25」である。
本発明の実施例において、「香山に」及び「つもり」を、第1文字列及び第2文字列との間の一つのペアリングの単語として定義する。上記の例から分かるように、ペアリングの単語とは、第1シーケンス及び第2シーケンス中に同時に存在する任意の二つの単語である。
ステップS2052において、切替操作情報に基づいて、ペアリングの数を特定する。
ここで、ペアリングの数とは、第1シーケンス及び第2シーケンス中のペアリングの単語の数であり、即ち、第1シーケンス及び第2シーケンスの両方の中に同時に存在する二つの単語の数である。上記の指定された集合中に記録するデータに対する説明から分かるように、指定された集合中に記録するデータに基づいて、ペアリングの数を特定する。
例えば、指定された集合中に記録するデータが「香山に−S13、つもりである−S15、香山−S23、つもりである−S25、私は−S11、行く−S14、私は−S22、行く−S24」であると、ペアリングの数を2として特定する。
ステップS2053において、編集距離、ペアリングの数、各操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の類似性を特定する。
一例として、本発明の実施例において、編集距離、ペアリングの数、各操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の類似性を特定する時に、各操作は、切替操作、及び交換操作を含む。
各操作の種類に組み合わせると、ステップS2053は、以下のステップS20531乃至ステップS20533によって実現される。
ステップS20531において、単語編集距離、単語ペアリングの数、切替操作の操作コスト、および、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の最小のセマンティックの編集距離を特定する。
一例として、編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式2に従って、第1文字列と第2文字列との間の最小のセマンティックの編集距離を特定する。
式2:minCost(S1, S2)=d-p(2cost(T)-cost(J))
式2の中で、S1及びS2は、それぞれ第1文字列及び第2文字列であり、minCost(S1, S2)は、最小のセマンティックの編集距離であり、dは、編集距離であり、pは、ペアリングの数であり、cost(J)は、交換操作の操作コストであり、cost(T)は、切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である。
ステップS20532において、最小のセマンティックの編集距離を正規化して、正規化結果を得る。
一例として、第1文字列と第2文字列との間の最大セマンティックの編集距離に基づいて、最小のセマンティックの編集距離を正規化する。最大セマンティックの編集距離は、以下の式4のとおりである。
式4:normFact(S1, S2)=min(n, m)cost(T)+(max(n, m)-min(n, m))×costM
costM=cost(C), if n<m
costM=cost(S), if n>m
式4の中で、normFact(S1, S2)は、第2セマンティックの編集距離であり、nは、第1シーケンスの単語の数であり、mは、第2シーケンスの単語の数である。
最小のセマンティックの編集距離minCost(S1, S2)に対して、正規化処理して得た正規化結果は、minCost(S1, S2)/normFact(S1, S2)である。最小のセマンティックの編集距離を正規化して、minCost(S1, S2)/normFact(S1, S2)を、0から1の間にマッピングして、類似性をもっと直観的に特定できる。
ステップS20533において、単語正規化結果に基づいて、第1文字列と第2文字列との間の類似性を特定する。
一例として、単語正規化結果に基づいて、以下の式5に従って、第1文字列と第2文字列との間の類似性を特定する。
式5:sim(S1, S2)=1-minCost(S1, S2)/normFact(S1, S2)
式5の中で、sim(S1, S2)は、上記第1文字列と上記第2文字列との間の類似性であり、minCost(S1, S2)は、最小のセマンティックの編集距離であり、normFact(S1, S2)は、最大のセマンティックの編集距離であり、minCost(S1, S2)/normFact(S1, S2)は、正規化結果である。
もっと具体的に、本発明の実施例において、編集距離、ペアリングの数、各操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の類似性を特定する時に、各操作は、切替操作、交換操作、挿入操作、削除操作中の少なくとも一つを含む。これを基に、以下のステップS20534乃至ステップS20536によって実現できる。
ステップS20534において、編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の第1セマンティックの編集距離を特定する。
ここで、第1セマンティックの編集距離は、第1文字列と第2文字列との間の最小のセマンティックの編集距離である。
一例として、編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の第1セマンティックの編集距離を特定する時に、以下の式3に従って実現できるが、これに限定されない。
式3:minCost(S1, S2)=d-p(2cost(T)-cost(J))
式3の中で、S1及びS2は、それぞれ上記第1文字列及び上記第2文字列であり、minCost(S1, S2)は、上記第1セマンティックの編集距離であり、dは、上記編集距離であり、pは、上記ペアリングの数であり、cost(J)は、上記交換操作の操作コストである。
式3及び式2から分かるように、第1セマンティックの編集距離は、第1文字列と第2文字列との間の最小のセマンティックの編集距離である。式2と式3は、minCost(S1, S2)の意味のみ互いに異なる。
ステップS20535において、挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の第2セマンティックの編集距離を特定する。
ここで、第2セマンティックの編集距離は、第1文字列と第2文字列との間の最大セマンティックの編集距離である。
一例として、挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の第2セマンティックの編集距離を特定する時に、以下の式4に従って実現できるが、これに限定されない。
式4:normFact(S1, S2)=min(n, m)cost(T)+(max(n, m)-min(n, m))×costM
costM=cost(C), if n<m
costM=cost(S), if n>m
式4の中で、normFact(S1, S2)は、上記第2セマンティックの編集距離であり、nは、上記第1シーケンスの単語の数であり、mは、上記第2シーケンスの単語の数である。
ここで、normFact(S1, S2)は、正規化係数であり、minCost(S1, S2)/normFact(S1, S2)を、0から1の間にマッピングして、類似性を直観的に特定できる。
ステップS20536において、第1セマンティックの編集距離、及び、第2セマンティックの編集距離に基づいて、第1文字列と第2文字列との間の類似性を特定する。
一例として、以下の式5に従って、第1文字列と第2文字列との間の類似性を特定する。
式5:sim(S1, S2)=1-minCost(S1, S2)/normFact(S1, S2)
式5の中で、sim(S1, S2)は、上記第1文字列と上記第2文字列との間の類似性である。
例えば、minCost(S1, S2)が1.5であり、normFact(S1, S2)が2.5であると、S1とS2との間の類似性は、1−1.5/2.5=0.4である。
本発明の実施例によって提供する方法によると、第1文字列及び第2文字列を、それぞれ、第1シーケンス及び第2シーケンスに単語分割して、第1文字列から第2文字列に変換する時の編集距離を特定する時に、第1文字列及び第2文字列の中の各文字に基づいて実現するのではなく、第1シーケンス及び第2シーケンスの中の各単語に基づいて実現する。ここで、文字列の中の各単語は少なくとも一つの文字を含む可能があるため、編集距離に基づいて類似性を特定する時に、文字列の中の各文字同士との間の関連関係を組み合わせたので、特定した類似性がもっと正確になる。
図3は、例示的な一実施例に係る類似性特定装置を示すブロック図である。図3を参照すると、当該類似性特定装置は、単語分割モジュール301、第1特定モジュール302及び第2特定モジュール303を備える。
単語分割モジュール301は、第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語がそれぞれ含まれた第1シーケンス及び第2シーケンスを得る。
第1特定モジュール302は、予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、第1文字列及び第2文字列との間の編集距離を特定する。
第2特定モジュール303は、編集距離、及び、第1シーケンスから第2シーケンスに変換するために行う各操作の情報に基づいて、第1文字列と第2文字列との間の類似性を特定する。
本発明の実施例によって提供する装置によると、第1文字列及び第2文字列を、第1シーケンス及び第2シーケンスに単語分割することにより、編集距離を特定する時に、文字列の中の文字に基づいて実現するのではなく、文字列の中の単語に基づいて実現する。ここで、文字列の中の各単語は少なくとも一つの文字を含む可能があるため、編集距離に基づいて類似性を特定する時に、文字列の中の各文字同士との間の関連関係を組み合わせたので、特定した類似性がもっと正確になる。
もう一実施例において、図4を参照すると、第2特定モジュール303は、
第1シーケンスから第2シーケンスに変換するために行う各操作情報の中の切替操作情報を取得するための取得ユニット3031と、
各切替操作情報に基づいて、第1シーケンス及び第2シーケンスの両方の中に同時に存在する二つの単語の数である、ペアリングの数を特定するための第1特定ユニット3032と、
編集距離、ペアリングの数、各操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の類似性を特定するための第2特定ユニット3033と
を備える。
もう一実施例において、図5を参照すると、各操作包括は、切替操作、及び、交換操作を含み、第2特定ユニット3033は、
編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の最小のセマンティックの編集距離を特定するための第1特定サブユニット30331と、
最小のセマンティックの編集距離を正規化して、正規化結果を得るための正規化サブユニット30332と、
正規化結果に基づいて、第1文字列と第2文字列との間の類似性を特定するための第2特定サブユニット30333と
を備える。
もう一実施例において、図6を参照すると、各操作は、切替操作、及び、交換操作、挿入操作、及び、削除操作の中の少なくとも一つを含み、第2特定ユニット3033は、
編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、第1文字列と第2文字列との間の第1セマンティックの編集距離を特定するための第3特定サブユニット30334と、
挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、第1文字列と第2文字列との間の第2セマンティックの編集距離を特定するための第4特定サブユニット30335と、
第1セマンティックの編集距離、及び、第2セマンティックの編集距離に基づいて、第1文字列と第2文字列との間の類似性を特定するための第5特定サブユニット30336と
を備える。
もう一実施例において、図7を参照すると、装置は、
切替操作と交換操作との間の関係に基づいて、切替操作の操作コスト及び交換操作の操作コストを特定するための第3特定モジュール304と、
切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト、削除操作の操作コスト及び切替操作の操作コストを特定するための第4特定モジュール305と
をさらに備える。
もう一実施例において、図8を参照すると、装置は、
切替操作と交換操作との間の関係に基づいて、2×切替操作の操作コスト>交換操作の操作コストとして特定するための第5特定モジュール306と、
切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト+削除操作の操作コスト>切替操作の操作コストとして特定するための第6特定モジュール307と
をさらに備える。
もう一実施例において、図9を参照すると、装置は、
挿入操作と削除操作との間の関係に基づいて、挿入操作の操作コスト=削除操作の操作コストとして特定するための第7特定モジュール308をさらに備える。
もう一実施例において、第1特定モジュール302は、予め定義した編集距離アルゴリズム、第1シーケンス、及び第2シーケンスに基づいて、以下の式1に従って、第1文字列及び第2文字列との間の編集距離を特定する。
式1:minCost[i, j]=min(
minCost[i-1, j]+cost(S),
minCost[i, j-1]+cost(C),
minCost[i-1, j-1]+cost(T))
式1の中で、iは、第1シーケンス中のi番目の単語であり、jは、第2シーケンス中のj番目の単語であり、cost(S)は、削除操作の操作コストであり、cost(C)は、挿入操作の操作コストであり、cost(T)は、切替操作の操作コストである。
もう一実施例において、第1特定サブユニット30331は、編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式2に従って、第1文字列と第2文字列との間の最小のセマンティックの編集距離を特定する。
式2:minCost(S1, S2)=d-p(2cost(T)-cost(J))
式2の中で、S1及びS2は、それぞれ第1文字列及び第2文字列であり、minCost(S1, S2)は、最小のセマンティックの編集距離であり、dは、編集距離であり、pは、ペアリングの数であり、cost(J)は、交換操作の操作コストであり、cost(T)は、切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である。
もう一実施例において、第3特定サブユニット30334は、編集距離、ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式3に従って、第1文字列と第2文字列との間の第1セマンティックの編集距離を特定する。
式3:minCost(S1, S2)=d-p(2cost(T)-cost(J))
式3の中で、S1及びS2は、それぞれ第1文字列及び第2文字列であり、minCost(S1, S2)は、第1セマンティックの編集距離であり、dは、編集距離であり、pは、ペアリングの数であり、cost(J)は、交換操作の操作コストであり、cost(T)は、切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である。
もう一実施例において、第4特定サブユニット30335は、挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、第1シーケンス中の単語の数、及び、第2シーケンス中の単語の数に基づいて、以下の式4に従って、第1文字列と第2文字列との間の第2セマンティックの編集距離を特定する。
式4:normFact(S1, S2)=min(n, m)cost(T)+(max(n, m)-min(n, m))×costM
costM=cost(C), if n<m
costM=cost(S), if n>m
式4の中で、normFact(S1, S2)は、第2セマンティックの編集距離であり、nは、第1シーケンスの単語の数であり、mは、第2シーケンスの単語の数であり、cost(T)は、切替操作の操作コストであり、cost(S)は、削除操作の操作コストであり、cost(C)は、挿入操作の操作コストである。
もう一実施例において、第5特定サブユニット30336は、第1セマンティックの編集距離、及び、第2セマンティックの編集距離に基づいて、以下の式5に従って、第1文字列と第2文字列との間の類似性を特定する。
式5:sim(S1, S2)=1-minCost(S1, S2)/normFact(S1, S2)
式5の中で、sim(S1, S2)は、第1文字列と第2文字列との間の類似性であり、minCost(S1, S2)は、第1セマンティックの編集距離であり、normFact(S1, S2)は、第2セマンティックの編集距離である。
上記の全てのオプション的な構成を、任意の組合せによって、本発明のオプション的な実施例を実現することができ、ここでは繰り返して説明しない。
上記の図3乃至図9に対応される実施例によって提供する類似性特定装置は、上記の図1或いは図2に対応される実施例によって提供する類似性特定方法を実行できる。その中の各モジュールが実行する操作の具体的な形態は既に当該方法に関する実施例において詳細に説明したため、ここでは詳細に説明しない。
図10は、例示的な一実施例に係る端末600を示すブロック図である、上記端末は、上記の図1或いは図2に対応する実施例によって提供する類似性特定方法を実行する。例えば、端末600は、携帯電話、コンピューター、デジタル放送端末、メッセージ送受信デバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタント等であってもよい。
図10を参照して、端末600は、プロセスアセンブリ602、メモリ604、電源アセンブリ606、マルチメディアアセンブリ608、オーディオアセンブリ610、入出力(I/O)インターフェイス612、センサアセンブリ614、及び通信アセンブリ616のような一つ以上のアセンブリを含んでよい。
プロセスアセンブリ602は、一般的には端末600の全体の動作を制御するものであり、例えば、表示、電話呼び出し、データ通信、カメラ動作、及び記録動作と関連する動作を制御する。プロセスアセンブリ602は、一つ以上のプロセッサ620を含み、これらによって命令を実行することにより、上記の方法の全部、或は一部のステップを実現するようにしてもよい。なお、プロセスアセンブリ602は、一つ以上のモジュールを含み、これらによってプロセスアセンブリ602と他のアセンブリの間のインタラクションを容易にするようにしてもよい。例えば、プロセスアセンブリ602は、マルチメディアモジュールを含み、これらによってマルチメディアアセンブリ608とプロセスアセンブリ602の間のインタラクションを容易にするようにしてもよい。
メモリ604は、各種類のデータを記憶することにより端末600の動作を支援するように構成される。これらのデータの例は、端末600において動作するいずれのアプリケーションプログラム又は方法の命令、連絡対象データ、電話帳データ、メッセージ、画像、ビデオ等を含む。メモリ604は、いずれの種類の揮発性メモリ、不揮発性メモリ記憶デバイスまたはそれらの組み合わせによって実現されてもよく、例えば、SRAM(StaticRandomAccessMemory)EEPROM(Electrically Erasable Programmable Read−Only Memory)、EPROM(Erasable Programmable Read Only Memory)、PROM( Programmable ROM)、ROM(Read Only Member)、磁気メモリ、フラッシュメモリ、磁気ディスク、或いは光ディスクである。
電源アセンブリ606は、端末600の多様なアセンブリに電力を供給する。電源アセンブリ606は、電源管理システム、一つ以上の電源、及び端末600のための電力の生成、管理及び割り当てに関連付けられている他のアセンブリを含んでもよい。
マルチメディアアセンブリ608は、前記端末600とユーザの間に一つの出力インターフェイスを提供するスクリーンを含む。上記の実施例において、スクリーンは液晶モニター(LCD)とタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含むことにより、スクリーンはタッチスクリーンを実現することができ、ユーザからの入力信号を受信することができる。タッチパネルは一つ以上のタッチセンサを含んでおり、タッチ、スワイプ、及びタッチパネル上のジェスチャを検出することができる。前記タッチセンサは、タッチ、或はスワイプの動作の境界だけでなく、前記のタッチ、或はスワイプ操作に係る継続時間及び圧力も検出できる。上記の実施例において、マルチメディアアセンブリ608は、一つのフロントカメラ、及び/又はリアカメラを含む。端末600が、例えば撮影モード、或はビデオモード等の動作モードにある場合、フロントカメラ、及び/又はリアカメラは外部からマルチメディアデータを受信できる。フロントカメラとリアカメラのそれぞれは、一つの固定型の光レンズ系、或は可変焦点距離と光学ズーム機能を有するものであってもよい。
オーディオアセンブリ610は、オーディオ信号を入出力するように構成されてもよい。例えば、オーディオアセンブリ610は、一つのマイク(MIC)を含み、端末600が、例えば呼出しモード、記録モード、及び音声認識モード等の動作モードにある場合、マイクは外部のオーディオ信号を受信することができる。受信されたオーディオ信号は、さらにメモリ604に記憶されたり、通信アセンブリ616を介して送信されたりされる。上記の実施例において、オーディオアセンブリ610は、オーディオ信号を出力するための一つのスピーカーをさらに含む。
I/Oインターフェイス612は、プロセスアセンブリ602と周辺インターフェイスモジュールの間にインターフェイスを提供するものであり、上記周辺インターフェイスモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボタン、ボリュームボタン、作動ボタン、ロッキングボタンを含んでもよいが、これらに限定されない。
センサアセンブリ614は、端末600に各種の状態に対する評価を提供するための一つ以上のセンサを含む。例えば、センサアセンブリ614は、端末600のON/OFF状態、端末600のディスプレイとキーパッドのようなアセンブリの相対的な位置決めを検出できる。また、例えば、センサアセンブリ614は、端末600、或は端末600の一つのアセンブリの位置変更、ユーザと端末600とが接触しているか否か、端末600の方位、又は加速/減速、端末600の温度の変化を検出できる。センサアセンブリ614は、何れの物理的接触がない状態にて付近の物体の存在を検出するための近接センサを含んでもよい。センサアセンブリ614は、撮影アプリケーションに適用するため、CMOS、又はCCD画像センサのような光センサを含んでもよい。上記の実施例において、当該センサアセンブリ614は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、及び温度センサをさらに含んでもよい。
通信アセンブリ616は、端末600と他の機器の間に有線、又は利便性のよい形態の通信を提供する。端末600は、例えばWiFi(登録商標)、2G、3G、或はこれらの組み合わせのような、通信規格に基づいた無線ネットワークに接続されてもよい。一つの例示的な実施例において、通信アセンブリ616は、放送チャンネルを介して外部の放送管理システムからの放送信号、又は放送に関連する情報を受信する。一つの例示的な実施例において、前記通信アセンブリ616は、近距離無線通信(NFC)モジュールをさらに含むことにより、近距離通信を可能にする。例えば、NFCモジュールは、RFID(Radio Frequency IDentification)技術、IrDA(Infrared Data Association)技術、UWB(Ultra Wide Band)技術、BT(Bluetooth(登録商標))技術、他の技術に基づいて実現できる。
例示的な実施例において、端末600は、一つ以上のASIC(ApplicationSpecific Integrated Circuit)、DSP(Digital Signal Processor)、DSPD(Digital Signal Processing Device)、PLD(Programmable Logic Device)、FPGA(Field−Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサ、または他の電子部品によって実現されるものであり、上記方法を実行する。
例示的な実施例において、さらに、命令を含むコンピュータ読取り可能な非一時的な記録媒体、例えば命令を含むメモリ604を提供しており、端末600のプロセッサ620により上記命令を実行して上記方法を実現する。例えば、前記コンピュータ読取り可能な非一時的な記録媒体は、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク(登録商標)、光データ記憶デバイス等である。
本発明の実施例によって提供するコンピュータ読取り可能な非一時的な記録媒体は、第1文字列及び第2文字列を、それぞれ、第1シーケンス及び第2シーケンスに単語分割して、第1文字列から第2文字列に変換する時の編集距離を特定する時に、第1文字列及び第2文字列の中の各文字に基づいて実現するのではなく、第1シーケンス及び第2シーケンスの中の各単語に基づいて実現する。ここで、文字列の中の各単語は少なくとも一つの文字を含む可能があるため、編集距離に基づいて類似性を特定する時に、文字列の中の各文字同士との間の関連関係を組み合わせたので、特定した類似性がもっと正確になる。
当然ながら、上記の図1或いは図2に対応する実施例によって提供する類似性特定方法は、サーバによっても実行できる。図11は、例示的な一実施例に係るサーバを示すブロック図である。当該サーバは、上記の図1或いは図2に対応する実施例によって提供する類似性特定方法を実行できる。図11を参照すると、サーバ700は、プロセスアセンブリ722を備える。当該プロセスアセンブリ722は、一つ以上のプロセッサ、及びメモリ732を代表とするメモリリソースを、さらに備える。当該メモリリソースは、プロセスアセンブリ722によって実行される、例えばアプリケーションプログラムのような命令を保存する。メモリ732中に保存されたアプリケーションプログラムには、それぞれ一つの命令のセットに対応する一つ以上のモジュールを含まれてもよい。なお、プロセスアセンブリ722は、命令を実行することにより、上記の図1或いは図2に対応する実施例によって提供する類似性特定方法を実行する。
サーバ700は、サーバ700の電源を管理するための一つの電源アセンブリ726、サーバ700をネットワークに接続させるための一つの有線又は無線のネットワークインターフェイス750、及び、一つの入出力インターフェイス758を備えてもよい。サーバ700は、メモリ732に保存された、例えば、Windows ServerTM、Mac OS XTM、UnixTM, LinuxTM、FreeBSDTMのようなオペレーティング・システムによって、操作を行うことができる。
当業者は、明細書を検討して本発明を実施した後、本発明の他の実施例を容易に考え出すことができる。本願は、本発明のいずれの変形、用途、又は適応的な変更をカバーすることを意図しており、これらの変形、用途、又は適応的な変更は、本発明の一般的な原理に従い、また、本発明は公開していない当該技術分野の公知の知識又は通常の技術手段を含む。明細書と実施例はただ例示として考慮され、本発明の本当の範囲と趣旨は以下の特許請求の範囲に記載される。
本発明は上記に記述され、また図面で示した厳密な構成に限定されず、その範囲を逸脱しない限り多様な置換えと変更を行うことができると、理解されるべきである。本発明の範囲は添付の特許請求の範囲のみにより限定される。
本発明は、自然言語処理分野に関し、特に、類似性特定方法、装置端末、プログラム及び記録媒体に関する。
本発明は、類似性特定方法、装置端末、プログラム及び記録媒体を提供する。
上記端末は、
プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリと
を備え、
前記プロセッサは、
第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語をそれぞれ含む第1シーケンス及び第2シーケンスを得るし、
予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、上記第1文字列及び上記第2文字列との間の編集距離を特定し
上記編集距離、及び、上記第1シーケンスを上記第2シーケンスに変換するために行なった各操作の情報に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するように構成される。
本発明の実施例の第4の態様によると、プログラムを提供し、当該プログラムは、プロセッサに実行されることにより、上記の類似性特定方法を実現する。
本発明の実施例の第5の態様によると、記録媒体を提供し、当該記録媒体には、上記プログラムが記録されている。

Claims (25)

  1. 第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語をそれぞれ含む第1シーケンス及び第2シーケンスを得るステップと、
    予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、上記第1文字列と上記第2文字列との間の編集距離を特定するステップと、
    上記編集距離、及び、上記第1シーケンスを上記第2シーケンスに変換するために行なった各操作の情報に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップと
    を含むことを特徴とする類似性特定方法。
  2. 上記編集距離、及び、上記第1シーケンスを上記第2シーケンスに変換するために行なった各操作の情報に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップは、
    上記第1シーケンスから上記第2シーケンスに変換するために行なった各操作情報の中の切替操作情報を取得するステップと、
    上記各切替操作情報に基づいて、上記第1シーケンス及び上記第2シーケンスの両方の中に同時に存在する二つの単語の数である、ペアリングの数を特定するステップと、
    上記編集距離、上記ペアリングの数、各操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップと
    を含むことを特徴とする請求項1に記載の類似性特定方法。
  3. 上記各操作は、切替操作及び交換操作を含み、
    上記編集距離、上記ペアリングの数、各操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップは、
    上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、上記第1文字列と上記第2文字列との間の最小のセマンティックの編集距離を特定するステップと、
    上記最小のセマンティックの編集距離を正規化して、正規化結果を得るステップと、
    上記正規化結果に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップと
    を含むことを特徴とする請求項2に記載の類似性特定方法。
  4. 上記各操作は、切替操作、交換操作、挿入操作、削除操作の中の少なくとも一つを含み、
    上記編集距離、上記ペアリングの数、各操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップは、
    上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、上記第1文字列と上記第2文字列との間の第1セマンティックの編集距離を特定するステップと、
    挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、上記第1文字列と上記第2文字列との間の第2セマンティックの編集距離を特定するステップと、
    上記第1セマンティックの編集距離、及び、上記第2セマンティックの編集距離に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップと
    を含むことを特徴とする請求項2に記載の類似性特定方法。
  5. 切替操作と交換操作との間の関係に基づいて、切替操作の操作コスト及び交換操作の操作コストを特定するステップと、
    切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト、削除操作の操作コスト及び切替操作の操作コストを特定するステップと
    をさらに含むことを特徴とする請求項2乃至4の中のいずれか1項に記載の類似性特定方法。
  6. 切替操作と交換操作との間の関係に基づいて、2×切替操作の操作コスト>交換操作の操作コストとして特定するステップと、
    切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト+削除操作の操作コスト>切替操作の操作コストとして特定するステップと
    をさらに含むことを特徴とする請求項5に記載の類似性特定方法。
  7. 挿入操作と削除操作との間の関係に基づいて、挿入操作の操作コスト=削除操作の操作コストとして特定するステップ
    をさらに含むことを特徴とする請求項5に記載の類似性特定方法。
  8. 予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、上記第1文字列と上記第2文字列との間の編集距離を特定するステップは、
    予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、以下の式1に従って、上記第1文字列と上記第2文字列との間の編集距離を特定するステップを含み、
    式1:minCost[i, j]=min(
    minCost[i-1, j]+cost(S),
    minCost[i, j-1]+cost(C),
    minCost[i-1, j-1]+cost(T))
    式1の中で、iは、第1シーケンス中のi番目の単語であり、jは、第2シーケンス中のj番目の単語であり、cost(S)は、削除操作の操作コストであり、cost(C)は、挿入操作の操作コストであり、cost(T)は、切替操作の操作コストである
    ことを特徴とする請求項2に記載の類似性特定方法。
  9. 上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、上記第1文字列と上記第2文字列との間の最小のセマンティックの編集距離を特定するステップは、
    上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式2に従って、上記第1文字列と上記第2文字列との間の最小のセマンティックの編集距離を特定するステップを含み、
    式2:minCost(S1, S2)=d-p(2cost(T)-cost(J))
    式2の中で、S1及びS2は、それぞれ上記第1文字列及び上記第2文字列であり、minCost(S1, S2)は、上記最小のセマンティックの編集距離であり、dは、上記編集距離であり、pは、上記ペアリングの数であり、cost(J)は、上記交換操作の操作コストであり、cost(T)は、上記切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である
    ことを特徴とする請求項3に記載の類似性特定方法。
  10. 上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、上記第1文字列と上記第2文字列との間の第1セマンティックの編集距離を特定するステップは、
    上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式3に従って、上記第1文字列と上記第2文字列との間の第1セマンティックの編集距離を特定するステップを含み、
    式3:minCost(S1, S2)=d-p(2cost(T)-cost(J))
    式3の中で、S1及びS2は、それぞれ上記第1文字列及び上記第2文字列であり、minCost(S1, S2)は、上記第1セマンティックの編集距離であり、dは、上記編集距離であり、pは、上記ペアリングの数であり、cost(J)は、上記交換操作の操作コストであり、cost(T)は、上記切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である
    ことを特徴とする請求項4に記載の類似性特定方法。
  11. 上記挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、上記第1文字列と上記第2文字列との間の第2セマンティックの編集距離を特定するステップは、
    挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、以下の式4に従って、上記第1文字列と上記第2文字列との間の第2セマンティックの編集距離を特定するステップを含み、
    式4:normFact(S1, S2)=min(n, m)cost(T)+(max(n, m)-min(n, m))×costM
    costM=cost(C), if n<m
    costM=cost(S), if n>m
    式4の中で、normFact(S1, S2)は、上記第2セマンティックの編集距離であり、nは、上記第1シーケンスの単語の数であり、mは、上記第2シーケンスの単語の数であり、cost(T)は、上記切替操作の操作コストであり、cost(S)は、上記削除操作の操作コストであり、cost(C)は、上記挿入操作の操作コストである
    ことを特徴とする請求項4に記載の類似性特定方法。
  12. 上記第1セマンティックの編集距離、及び、上記第2セマンティックの編集距離に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するステップは、
    上記第1セマンティックの編集距離、及び、上記第2セマンティックの編集距離に基づいて、以下の式5に従って、上記第1文字列と上記第2文字列との間の類似性を特定するステップを含み、
    式5:sim(S1, S2)=1-minCost(S1, S2)/normFact(S1, S2)
    式5の中で、sim(S1, S2)は、上記第1文字列と上記第2文字列との間の類似性であり、minCost(S1, S2)は、上記第1セマンティックの編集距離であり、normFact(S1, S2)は、上記第2セマンティックの編集距離である
    ことを特徴とする請求項4に記載の類似性特定方法。
  13. 第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語をそれぞれ含む第1シーケンス及び第2シーケンスを得るための単語分割モジュールと、
    予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、上記第1文字列と上記第2文字列との間の編集距離を特定するための第1特定モジュールと、
    上記編集距離、及び、上記第1シーケンスを上記第2シーケンスに変換するために行なった各操作の情報に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するための第2特定モジュールと
    を備えることを特徴とする類似性特定装置
  14. 上記第2特定モジュールは、
    上記第1シーケンスから上記第2シーケンスに変換するために行なった各操作情報の中の切替操作情報を取得するための取得ユニットと、
    上記各切替操作情報に基づいて、上記第1シーケンス及び上記第2シーケンスの両方の中に同時に存在する二つの単語の数である、ペアリングの数を特定するための第1特定ユニットと、
    上記編集距離、上記ペアリングの数、各操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するための第2特定ユニットと
    を備えることを特徴とする請求項13に記載の類似性特定装置
  15. 上記各操作は、切替操作及び交換操作を含み、上記第2特定ユニットは、
    上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、上記第1文字列と上記第2文字列との間の最小のセマンティックの編集距離を特定するための第1特定サブユニットと、
    上記最小のセマンティックの編集距離を正規化して、正規化結果を得るための正規化サブユニットと、
    上記正規化結果に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するための第2特定サブユニットと
    を備えることを特徴とする請求項14に記載の類似性特定装置
  16. 上記各操作は、切替操作、交換操作、挿入操作、削除操作の中の少なくとも一つを含み、上記第2特定ユニットは、
    上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、上記第1文字列と上記第2文字列との間の第1セマンティックの編集距離を特定するための第3特定サブユニットと、
    挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、上記第1文字列と上記第2文字列との間の第2セマンティックの編集距離を特定するための第4特定サブユニットと、
    上記第1セマンティックの編集距離、及び、上記第2セマンティックの編集距離に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するための第5特定サブユニットと
    を備えることを特徴とする請求項14に記載の類似性特定装置
  17. 切替操作と交換操作との間の関係に基づいて、切替操作の操作コスト及び交換操作の操作コストを特定するための第3特定モジュールと、
    切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト、削除操作の操作コスト及び切替操作の操作コストを特定するための第4特定モジュールと
    をさらに備えることを特徴とする請求項14乃至16の中のいずれか1項に記載の類似性特定装置
  18. 切替操作と交換操作との間の関係に基づいて、2×切替操作の操作コスト>交換操作の操作コストとして特定するための第5特定モジュールと、
    切替操作、挿入操作、及び、削除操作の間の関係に基づいて、挿入操作の操作コスト+削除操作の操作コスト>切替操作の操作コストとして特定するための第6特定モジュールと
    をさらに備えることを特徴とする請求項17に記載の類似性特定装置
  19. 挿入操作と削除操作との間の関係に基づいて、挿入操作の操作コスト=削除操作の操作コストとして特定するための第7特定モジュール
    をさらに備えることを特徴とする請求項17に記載の類似性特定装置
  20. 上記第1特定モジュールは、予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、以下の式1に従って、上記第1文字列と上記第2文字列との間の編集距離を特定し、
    式1:minCost[i, j]=min(
    minCost[i-1, j]+cost(S),
    minCost[i, j-1]+cost(C),
    minCost[i-1, j-1]+cost(T))
    式1の中で、iは、上記第1シーケンス中のi番目の単語であり、jは、上記第2シーケンス中のj番目の単語であり、cost(S)は、削除操作の操作コストであり、cost(C)は、挿入操作の操作コストであり、cost(T)は、切替操作の操作コストである
    ことを特徴とする請求項14に記載の類似性特定装置
  21. 上記第1特定サブユニットは、上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式2に従って、上記第1文字列と上記第2文字列との間の最小のセマンティックの編集距離を特定し、
    式2:minCost(S1, S2)=d-p(2cost(T)-cost(J))
    式2の中で、S1及びS2は、それぞれ上記第1文字列及び上記第2文字列であり、minCost(S1, S2)は、上記最小のセマンティックの編集距離であり、dは、上記編集距離であり、pは、上記ペアリングの数であり、cost(J)は、上記交換操作の操作コストであり、cost(T)は、上記切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である
    ことを特徴とする請求項15に記載の類似性特定装置
  22. 上記第3特定サブユニットは、上記編集距離、上記ペアリングの数、切替操作の操作コスト、及び、交換操作の操作コストに基づいて、以下の式3に従って、上記第1文字列と上記第2文字列との間の第1セマンティックの編集距離を特定し、
    式3:minCost(S1, S2)=d-p(2cost(T)-cost(J))
    式3の中で、S1及びS2は、それぞれ上記第1文字列及び上記第2文字列であり、minCost(S1, S2)は、上記第1セマンティックの編集距離であり、dは、上記編集距離であり、pは、上記ペアリングの数であり、cost(J)は、上記交換操作の操作コストであり、cost(T)は、上記切替操作の操作コストであり、且つ、2cost(T)-cost(J)>0である
    ことを特徴とする請求項16に記載の類似性特定装置
  23. 第4特定サブユニットは、挿入操作の操作コスト及び削除操作の操作コストの中の一つ、切替操作の操作コスト、上記第1シーケンス中の単語の数、及び、上記第2シーケンス中の単語の数に基づいて、以下の式4に従って、上記第1文字列と上記第2文字列との間の第2セマンティックの編集距離を特定し、
    式4:normFact(S1, S2)=min(n, m)cost(T)+(max(n, m)-min(n, m))×costM
    costM=cost(C), if n<m
    costM=cost(S), if n>m
    式4の中で、normFact(S1, S2)は、上記第2セマンティックの編集距離であり、nは、上記第1シーケンスの単語の数であり、mは、上記第2シーケンスの単語の数であり、cost(T)は、上記切替操作の操作コストであり、cost(S)は、上記削除操作の操作コストであり、cost(C)は、上記挿入操作の操作コストである
    ことを特徴とする請求項16に記載の類似性特定装置
  24. 上記第5特定サブユニットは、上記第1セマンティックの編集距離、及び、上記第2セマンティックの編集距離に基づいて、以下の式5に従って、上記第1文字列と上記第2文字列との間の類似性を特定し、
    式5:sim(S1, S2)=1-minCost(S1, S2)/normFact(S1, S2)
    式5の中で、sim(S1, S2)は、上記第1文字列と上記第2文字列との間の類似性であり、minCost(S1, S2)は、上記第1セマンティックの編集距離であり、normFact(S1, S2)は、上記第2セマンティックの編集距離である
    ことを特徴とする請求項16に記載の類似性特定装置
  25. プロセッサと、
    前記プロセッサが実行可能な命令を記憶するためのメモリと
    を備え、
    前記プロセッサは、
    第1文字列及び第2文字列に対してそれぞれ単語分割を行なって、少なくとも一つの単語をそれぞれ含む第1シーケンス及び第2シーケンスを得るし、
    予め定義した編集距離アルゴリズム、上記第1シーケンス及び上記第2シーケンスに基づいて、上記第1文字列及び上記第2文字列との間の編集距離を特定し、
    上記編集距離、及び、上記第1シーケンスを上記第2シーケンスに変換するために行なった各操作の情報に基づいて、上記第1文字列と上記第2文字列との間の類似性を特定するように構成される
    ことを特徴とする端末。
JP2017553299A 2015-12-03 2015-12-29 類似性特定方法、装置、端末、プログラム及び記録媒体 Active JP6321306B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510882468.2 2015-12-03
CN201510882468.2A CN105446957B (zh) 2015-12-03 2015-12-03 相似性确定方法、装置及终端
PCT/CN2015/099523 WO2017092122A1 (zh) 2015-12-03 2015-12-29 相似性确定方法、装置及终端

Publications (2)

Publication Number Publication Date
JP2018501597A true JP2018501597A (ja) 2018-01-18
JP6321306B2 JP6321306B2 (ja) 2018-05-09

Family

ID=55557172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017553299A Active JP6321306B2 (ja) 2015-12-03 2015-12-29 類似性特定方法、装置、端末、プログラム及び記録媒体

Country Status (8)

Country Link
US (1) US10089301B2 (ja)
EP (1) EP3179379A1 (ja)
JP (1) JP6321306B2 (ja)
KR (1) KR101782923B1 (ja)
CN (1) CN105446957B (ja)
MX (1) MX365897B (ja)
RU (1) RU2664002C2 (ja)
WO (1) WO2017092122A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296788B1 (en) * 2016-12-19 2019-05-21 Matrox Electronic Systems Ltd. Method and system for processing candidate strings detected in an image to identify a match of a model string in the image
US10853457B2 (en) * 2018-02-06 2020-12-01 Didi Research America, Llc System and method for program security protection
US10515149B2 (en) 2018-03-30 2019-12-24 BlackBoiler, LLC Method and system for suggesting revisions to an electronic document
WO2020061910A1 (zh) * 2018-09-27 2020-04-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
SG10201904554TA (en) * 2019-05-21 2019-09-27 Alibaba Group Holding Ltd Methods and devices for quantifying text similarity
CN110750615B (zh) * 2019-09-30 2020-07-24 贝壳找房(北京)科技有限公司 文本重复性判定方法和装置、电子设备和存储介质
CN110909161B (zh) * 2019-11-12 2022-04-08 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN111352549B (zh) * 2020-02-25 2022-01-07 腾讯科技(深圳)有限公司 一种数据对象展示方法、装置、设备及存储介质
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
CN111967270B (zh) * 2020-08-16 2023-11-21 云知声智能科技股份有限公司 一种基于字符与语义融合的方法和设备
CA3203926A1 (en) 2021-01-04 2022-07-07 Liam Roshan Dunan EMMART Editing parameters
CN112597313B (zh) * 2021-03-03 2021-06-29 北京沃丰时代数据科技有限公司 短文本聚类方法、装置、电子设备及存储介质
KR102517661B1 (ko) * 2022-07-15 2023-04-04 주식회사 액션파워 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법
CN116564414B (zh) * 2023-07-07 2024-03-26 腾讯科技(深圳)有限公司 分子序列的比对方法、装置、电子设备、存储介质及产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352888A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 表記揺れ対応辞書作成システム
US20090175545A1 (en) * 2008-01-04 2009-07-09 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
JP2012533818A (ja) * 2009-07-20 2012-12-27 アリババ・グループ・ホールディング・リミテッド 単語の重みに基づいた検索結果の順位付け
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
US20150051896A1 (en) * 2013-08-14 2015-02-19 National Research Council Of Canada Method and apparatus to construct program for assisting in reviewing
JP2015079380A (ja) * 2013-10-17 2015-04-23 株式会社日立ソリューションズ東日本 データ処理装置およびデータ処理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757959A (en) * 1995-04-05 1998-05-26 Panasonic Technologies, Inc. System and method for handwriting matching using edit distance computation in a systolic array processor
NO983175L (no) 1998-07-10 2000-01-11 Fast Search & Transfer Asa Soekesystem for gjenfinning av data
JP2001291060A (ja) * 2000-04-04 2001-10-19 Toshiba Corp 単語列照合装置および単語列照合方法
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
US7734565B2 (en) * 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
EP1668541A1 (en) * 2003-09-30 2006-06-14 British Telecommunications Public Limited Company Information retrieval
US8775441B2 (en) 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8170969B2 (en) * 2008-08-13 2012-05-01 Siemens Aktiengesellschaft Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
US8219583B2 (en) * 2008-11-10 2012-07-10 Nbcuniversal Media, Llc Methods and systems for mining websites
US8290989B2 (en) * 2008-11-12 2012-10-16 Sap Ag Data model optimization
CN101751430A (zh) * 2008-12-12 2010-06-23 汉王科技股份有限公司 电子词典模糊检索方法
CN101561813B (zh) * 2009-05-27 2010-09-29 东北大学 一种Web环境下的字符串相似度的分析方法
CN102622338B (zh) * 2012-02-24 2014-02-26 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
US9430463B2 (en) * 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9672206B2 (en) * 2015-06-01 2017-06-06 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352888A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 表記揺れ対応辞書作成システム
US20090175545A1 (en) * 2008-01-04 2009-07-09 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
JP2012533818A (ja) * 2009-07-20 2012-12-27 アリババ・グループ・ホールディング・リミテッド 単語の重みに基づいた検索結果の順位付け
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
US20150051896A1 (en) * 2013-08-14 2015-02-19 National Research Council Of Canada Method and apparatus to construct program for assisting in reviewing
JP2015079380A (ja) * 2013-10-17 2015-04-23 株式会社日立ソリューションズ東日本 データ処理装置およびデータ処理方法

Also Published As

Publication number Publication date
CN105446957B (zh) 2018-07-20
KR101782923B1 (ko) 2017-09-28
MX2016005489A (es) 2017-11-30
EP3179379A1 (en) 2017-06-14
JP6321306B2 (ja) 2018-05-09
US20170161260A1 (en) 2017-06-08
US10089301B2 (en) 2018-10-02
WO2017092122A1 (zh) 2017-06-08
RU2664002C2 (ru) 2018-08-14
CN105446957A (zh) 2016-03-30
RU2016118758A (ru) 2017-11-20
MX365897B (es) 2019-06-19

Similar Documents

Publication Publication Date Title
JP6321306B2 (ja) 類似性特定方法、装置、端末、プログラム及び記録媒体
JP6189000B2 (ja) アプリケーションのインストールパッケージの処理方法、装置、プログラム及び記録媒体
JP6167245B2 (ja) 通信メッセージ識別方法、通信メッセージ識別装置、プログラム及び記録媒体
TW202113680A (zh) 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體
JP2017505966A (ja) ファームウェアアップグレード方法、装置、プログラム及び記録媒体
WO2021204098A1 (zh) 语音交互方法及电子设备
WO2017088247A1 (zh) 输入处理方法、装置及设备
KR20150090966A (ko) 전자 장치 및 전자 장치의 검색 결과 제공 방법
CN106201734B (zh) 文件分享方法及装置
JP2016528642A (ja) 軽応用のメッセージプッシュ方法、メッセージプッシュ装置、端末、サーバ、プログラム及び記録媒体
EP3001300B1 (en) Method and apparatus for generating preview data
US10083346B2 (en) Method and apparatus for providing contact card
KR20160012573A (ko) 통합된 통화 및 계산 기능을 지원하는 전자 장치 및 그 방법
US20190147889A1 (en) User identification method and apparatus based on acoustic features
US20210022069A1 (en) Method and apparatus for indicating position of cell-defining synchronization signal block and searching for the same, and base station
US20200275445A1 (en) Method for indicating time-domain information of common control resource set of remaining minimum system information
US11210449B2 (en) Page display method and device and storage medium
CN109992754B (zh) 文档处理方法及装置
US20160364459A1 (en) Search method and search device
EP4020251A1 (en) Data processing method and apparatus thereof
JP2017520877A5 (ja)
CN111552688A (zh) 数据导出方法、装置及电子设备
CN112433787A (zh) 目标对象的序列化方法、装置、电子设备及存储介质
US20170060822A1 (en) Method and device for storing string
CN112732734A (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180404

R150 Certificate of patent or registration of utility model

Ref document number: 6321306

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250