JP2013218628A - 文字列類似度計算装置、方法、及びプログラム - Google Patents
文字列類似度計算装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013218628A JP2013218628A JP2012090841A JP2012090841A JP2013218628A JP 2013218628 A JP2013218628 A JP 2013218628A JP 2012090841 A JP2012090841 A JP 2012090841A JP 2012090841 A JP2012090841 A JP 2012090841A JP 2013218628 A JP2013218628 A JP 2013218628A
- Authority
- JP
- Japan
- Prior art keywords
- katakana
- character string
- notation
- alphabet
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】学習文字列集合を用いて、アルファベット−カタカナ基底ベクトル生成部13が、アルファベット表記のN−グラムに対するカタカナ表記のM−グラムの条件付き共起確率を要素とするアルファベット−カタカナ基底ベクトルを、カタカナ−カタカナ基底ベクトル生成部14が、二つのカタカナ表記のM−グラム間の条件付き共起確率を要素とするカタカナ−カタカナ基底ベクトルを生成し、特徴ベクトル計算部16が、文字列のアルファベット連続部分に含まれるN−グラムに対応するアルファベット−カタカナ基底ベクトルと、カタカナ連続部分のM−グラムに対応するカタカナ−カタカナ基底ベクトルとに基づいて、二つの文字列の各々の特徴ベクトルを計算する。
【選択図】図1
Description
B("add") = {".a", "ad", "dd", "d."}
B("admin") = {".a", "ad", "dm", "mi", "in", "n."}
B("dam") = {".d", "da", "am", "m."}
B("damon") = {".d", "da", "am", "mo", "on", "n."}
S(s, t) = |B(s) ∩ B(t)| / |B(s) ∪ B(t)|
として定めることができる。
B("adam") ∩ B("add") = {".a", "ad"}
の2個あるから、
|B("adam") ∩ B("add")| = 2
B("adam") ∪ B("add") = {".a", "ad", "am", "da", "dd", "d.", "m."}
の7個あるから、
|B("adam") ∪ B("add")| = 7
従って、"adam"と"add"との類似度は、
S("adam", "add") = 2/7
である。
u("...d") = (0, 1/3, 0, 1/3, 1/3)
u("..ad") = (1/4, 0, 1/4, 1/4, 1/4)
u("..da") = (0, 1/3, 0, 1/3, 1/3)
u(".ada") = (1/4, 0, 1/4, 1/4, 1/4)
u(".dam") = (0, 1/3, 0, 1/3, 1/3)
u("adam") = (1/4, 0, 1/4, 1/4, 1/4)
u("dam.") = (1/7, 1/7, 1/7, 2/7, 2/7)
u("am..") = (1/7, 1/7, 1/7, 2/7, 2/7)
u("m...") = (1/7, 1/7, 1/7, 2/7, 2/7)
v(".ダ") = (0, 1/3, 0, 1/3, 1/3)
v("アダ") = (1/4, 0, 1/4, 1/4, 1/4)
v("ダム") = (1/7, 1/7, 1/7, 2/7, 2/7)
v("ム.") = (1/7, 1/7, 1/7, 2/7, 2/7)
11 学習用N−グラム抽出部
12 学習用M−グラム抽出部
13 アルファベット−カタカナ基底ベクトル生成部
14 カタカナ−カタカナ基底ベクトル生成部
15 連続部分抽出部
16 特徴ベクトル計算部
16 類似度計算部
17 計算対象N−グラム抽出部
18 計算対象M−グラム抽出部
19 N−グラム基底ベクトル加算部
20 M−グラム基底ベクトル加算部
21 加算正規化部
22 類似度計算部
30 アルファベット−カタカナ基底ベクトル記憶部
31 カタカナ−カタカナ基底ベクトル記憶部
Claims (3)
- アルファベット表記の文字列と該アルファベット表記に対応するカタカナ表記の文字列との組からなる学習文字列集合を用いて、アルファベット表記の各文字列に含まれるN−グラムに対するカタカナ表記の各文字列に含まれるM−グラムの条件付き共起確率を要素とするアルファベット−カタカナ基底ベクトルを生成する第1生成手段と、
前記学習文字列集合を用いて、カタカナ表記の各文字列に含まれる二つのM−グラム間の条件付き共起確率を要素とするカタカナ−カタカナ基底ベクトルを生成する第2生成手段と、
アルファベット表記とカタカナ表記とが混在する類似度計算対象の対象文字列集合に含まれる文字列から、アルファベット表記の文字が連続する部分とカタカナ表記の文字が連続する部分とを抽出する抽出手段と、
前記アルファベット表記の文字が連続する部分に含まれるN−グラムに対応する前記アルファベット−カタカナ基底ベクトルと、前記カタカナ表記の文字が連続する部分に含まれるM−グラムに対応する前記カタカナ−カタカナ基底ベクトルとに基づいて、前記対象文字列集合に含まれる文字列の特徴ベクトルを計算する特徴ベクトル計算手段と、
前記特徴ベクトル計算手段により計算された前記対象文字列集合に含まれる二つの文字列の各々の特徴ベクトルに基づいて、前記二つの文字列間の類似度を計算する類似度計算手段と、
を含む文字列類似度計算装置。 - 第1生成手段と、第2生成手段と、抽出手段と、特徴ベクトル計算手段と、類似度計算手段とを含む文字列類似度計算装置における文字列類似度計算方法であって、
前記第1生成手段が、アルファベット表記の文字列と該アルファベット表記に対応するカタカナ表記の文字列との組からなる学習文字列集合を用いて、アルファベット表記の各文字列に含まれるN−グラムに対するカタカナ表記の各文字列に含まれるM−グラムの条件付き共起確率を要素とするアルファベット−カタカナ基底ベクトルを生成し、
前記第2生成手段が、前記学習文字列集合を用いて、カタカナ表記の各文字列に含まれる二つのM−グラム間の条件付き共起確率を要素とするカタカナ−カタカナ基底ベクトルを生成し、
前記抽出手段が、アルファベット表記とカタカナ表記とが混在する類似度計算対象の対象文字列集合に含まれる文字列から、アルファベット表記の文字が連続する部分とカタカナ表記の文字が連続する部分とを抽出し、
前記特徴ベクトル計算手段が、前記アルファベット表記の文字が連続する部分に含まれるN−グラムに対応する前記アルファベット−カタカナ基底ベクトルと、前記カタカナ表記の文字が連続する部分に含まれるM−グラムに対応する前記カタカナ−カタカナ基底ベクトルとに基づいて、前記対象文字列集合に含まれる文字列の特徴ベクトルを計算し、
前記類似度計算手段が、前記特徴ベクトル計算手段により計算された前記対象文字列集合に含まれる二つの文字列の各々の特徴ベクトルに基づいて、前記二つの文字列間の類似度を計算する
文字列類似度計算方法。 - コンピュータを、請求項1記載の文字列類似度計算装置を構成する各手段として機能させるための文字列類似度計算プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012090841A JP5676517B2 (ja) | 2012-04-12 | 2012-04-12 | 文字列類似度計算装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012090841A JP5676517B2 (ja) | 2012-04-12 | 2012-04-12 | 文字列類似度計算装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013218628A true JP2013218628A (ja) | 2013-10-24 |
JP5676517B2 JP5676517B2 (ja) | 2015-02-25 |
Family
ID=49590621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012090841A Expired - Fee Related JP5676517B2 (ja) | 2012-04-12 | 2012-04-12 | 文字列類似度計算装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5676517B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062888A (zh) * | 2018-06-04 | 2018-12-21 | 昆明理工大学 | 一种出现错误文本输入时的自纠正方法 |
US10795964B2 (en) | 2015-02-13 | 2020-10-06 | Alibaba Group Holding Limited | Text address processing method and apparatus |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142877A (ja) * | 1999-11-16 | 2001-05-25 | Nippon Telegr & Teleph Corp <Ntt> | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 |
JP2003167913A (ja) * | 2001-11-29 | 2003-06-13 | Hitachi Ltd | 類似文書検索方法 |
JP2003288366A (ja) * | 2002-03-28 | 2003-10-10 | Fujitsu Ltd | 類似テキスト検索装置 |
US20070016571A1 (en) * | 2003-09-30 | 2007-01-18 | Behrad Assadian | Information retrieval |
JP2009193584A (ja) * | 2008-02-13 | 2009-08-27 | Fujitsu Ltd | ワードセットに関係するワードの決定 |
JP2010044597A (ja) * | 2008-08-13 | 2010-02-25 | Internatl Business Mach Corp <Ibm> | 情報処理装置、情報処理方法、情報処理システム、およびプログラム |
US20120271827A1 (en) * | 2007-12-31 | 2012-10-25 | Merz Christopher J | Methods and systems for implementing approximate string matching within a database |
-
2012
- 2012-04-12 JP JP2012090841A patent/JP5676517B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142877A (ja) * | 1999-11-16 | 2001-05-25 | Nippon Telegr & Teleph Corp <Ntt> | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 |
JP2003167913A (ja) * | 2001-11-29 | 2003-06-13 | Hitachi Ltd | 類似文書検索方法 |
JP2003288366A (ja) * | 2002-03-28 | 2003-10-10 | Fujitsu Ltd | 類似テキスト検索装置 |
US20070016571A1 (en) * | 2003-09-30 | 2007-01-18 | Behrad Assadian | Information retrieval |
US20120271827A1 (en) * | 2007-12-31 | 2012-10-25 | Merz Christopher J | Methods and systems for implementing approximate string matching within a database |
JP2009193584A (ja) * | 2008-02-13 | 2009-08-27 | Fujitsu Ltd | ワードセットに関係するワードの決定 |
JP2010044597A (ja) * | 2008-08-13 | 2010-02-25 | Internatl Business Mach Corp <Ibm> | 情報処理装置、情報処理方法、情報処理システム、およびプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10795964B2 (en) | 2015-02-13 | 2020-10-06 | Alibaba Group Holding Limited | Text address processing method and apparatus |
CN109062888A (zh) * | 2018-06-04 | 2018-12-21 | 昆明理工大学 | 一种出现错误文本输入时的自纠正方法 |
CN109062888B (zh) * | 2018-06-04 | 2023-03-31 | 昆明理工大学 | 一种出现错误文本输入时的自纠正方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5676517B2 (ja) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190087403A1 (en) | Online spelling correction/phrase completion system | |
Náplava et al. | Diacritics restoration using neural networks | |
US10242323B2 (en) | Customisable method of data filtering | |
Laboreiro et al. | Tokenizing micro-blogging messages using a text classification approach | |
US10762293B2 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
Schnabel et al. | Flors: Fast and simple domain adaptation for part-of-speech tagging | |
US8380488B1 (en) | Identifying a property of a document | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
Proisl | SoMeWeTa: A part-of-speech tagger for German social media and web texts | |
KR20130038959A (ko) | 문자 변환 처리 장치, 기록 매체 및 방법 | |
Malykh et al. | Robust word vectors: Context-informed embeddings for noisy texts | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
Roark et al. | Hippocratic abbreviation expansion | |
JP5676517B2 (ja) | 文字列類似度計算装置、方法、及びプログラム | |
UzZaman et al. | A comprehensive bangla spelling checker | |
US11934779B2 (en) | Information processing device, information processing method, and program | |
Isroilov et al. | Personal names spell-checking–a study related to Uzbek | |
US10896296B2 (en) | Non-transitory computer readable recording medium, specifying method, and information processing apparatus | |
Yıldırım et al. | An unsupervised text normalization architecture for turkish language | |
Islam et al. | A context-sensitive approach to find optimum language model for automatic Bangla spelling correction | |
JP2009199434A (ja) | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
Singvongsa et al. | Lao-Thai machine translation using statistical model | |
Kim et al. | Reliable automatic word spacing using a space insertion and correction model based on neural networks in Korean | |
Sowmya et al. | Transliteration based text input methods for telugu |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5676517 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |