JP5323652B2 - 類似語決定方法およびシステム - Google Patents
類似語決定方法およびシステム Download PDFInfo
- Publication number
- JP5323652B2 JP5323652B2 JP2009266174A JP2009266174A JP5323652B2 JP 5323652 B2 JP5323652 B2 JP 5323652B2 JP 2009266174 A JP2009266174 A JP 2009266174A JP 2009266174 A JP2009266174 A JP 2009266174A JP 5323652 B2 JP5323652 B2 JP 5323652B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- language
- input
- input character
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
(「タップリ」の韓国語表記、以下同じ)である場合には、該当する日本語表記である「たっぷり」が存在しているため日本語への変換が可能であると判断し、入力文字列が
(「タップルリ」の韓国語表記、以下同じ)である場合には、該当する日本語表記が存在しないため日本語への変換が不可能であると判断する。
である場合、入力文字列である
と候補文字列の発音である韓国語文字列との編集距離を算出する。
のような韓国語で表記された入力文字列が日本語に変換が不可能である場合には、
と候補文字列の発音に該当する
、
(「タッスル」の韓国語表記、以下同じ)、
(「タタエル」の韓国語表記、以下同じ)などのような文字列と編集距離を算出する。
の場合、
と編集距離が基準値以下である
、
、
に該当する候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列の類似語として決定することができる。一方、本発明における編集距離の基準値は、状況によって変更が可能であり、特定の数値に限定されるものではない。
に変換することができる。
である場合には、該当する日本語表記である「たっぷり」が存在しているため日本語への変換が可能であると判断し、入力文字列が
である場合には、該当する日本語表記が存在しないため日本語への変換が不可能であると判断することができる。
である場合、入力文字列である
と候補文字列の発音を韓国語で表記した文字列との編集距離を算出する。
である場合、
と編集距離が基準値以下である
、
、
に該当する候補文字列である「たっぷり」、「たっする」、「たたえる」を入力文字列の類似語として決定することができる。
110:インターネット
120:ユーザ端末
130:ユーザインターフェース部
140:候補文字列提供部
150:類似語決定部
Claims (23)
- コンピュータが、入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、
前記コンピュータが、前記入力文字列が前記第2言語である場合、前記第2言語からなる入力文字列を前記第1言語に変換可能であるかを判断するステップと、
前記コンピュータが、前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換するステップと、
前記コンピュータが、前記第1言語に変換された文字列と候補文字列との編集距離を算出するステップと、
前記コンピュータが、前記候補文字列の中で、前記編集距離が基準値以下である候補文字列を、前記入力文字列の類似語として決定するステップと、
を含み、
前記コンピュータが、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、
前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断することを特徴とする類似語決定方法。 - 前記コンピュータが、前記入力文字列が第1言語であるかまたは第2言語であるかを判断するステップにおいて、
前記コンピュータが、前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出するステップと、
をさらに含むことを特徴とする請求項1に記載の類似語決定方法。 - 前記第2言語からなる入力文字列を前記第1言語に変換が可能でない場合、前記コンピュータが、前記候補文字列の発音を前記第2言語で表記した文字列と、前記入力文字列と、の編集距離を算出するステップと、
前記コンピュータが、前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定するステップと、
を含むことを特徴とする請求項1に記載の類似語決定方法。 - 前記第1言語に変換するステップにおいて、
前記コンピュータが、前記第1言語が外国語である場合、前記第2言語からなる入力文字列を該当する外国語に対する音差復元器を用いて前記該当の外国語からなる文字列に変換することを特徴とする請求項1に記載の類似語決定方法。 - 前記第1言語は外国語のうちのいずれか1つであり、前記第2言語は母国語であることを特徴とする請求項1に記載の類似語決定方法。
- 前記入力文字列および候補文字列は、検索クエリーであることを特徴とする請求項1に記載の類似語決定方法。
- 前記判断ステップの前に、前記コンピュータが、ユーザ端末から前記入力文字列を受信するステップをさらに含み、
前記コンピュータが、前記類似語決定ステップの後に、前記決定された類似語を推奨クエリーとして前記ユーザ端末に提供するステップをさらに含むことを特徴とする請求項1に記載の類似語決定方法。 - コンピュータが、入力文字列が第1言語であるかまたは第2言語であるかを判断するステップと、
前記コンピュータが、前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出するステップと、
前記コンピュータが、前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定するステップと、を含み、
前記コンピュータが、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、
前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断し、
前記入力文字列の類似語として決定する前記候補文字列を前記第2言語で表記した文字列は、前記入力文字列と共通した文字を含み、
前記入力文字列の類似語として決定する前記候補文字列を前記第2言語で表記した文字列は、前記入力文字列との文字類似度点数が上位N位以内である候補文字列の中の少なくとも1つから選定されることを特徴とする類似語決定方法。 - 前記第2言語が母国語である場合、
前記コンピュータが前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とする請求項8に記載の類似語決定方法。 - 前記候補文字列の中で前記編集距離が基準値以下である候補文字列は、前記編集距離算出のための演算毎にワイルドカード文字検索を用いて選定されることを特徴とする請求項1に記載の類似語決定方法。
- 前記入力文字列と共通した文字を含む候補文字列は、前記入力文字列と共通したN−gramを含む候補文字列であり、
前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さ差を用いて決定することを特徴とする請求項9に記載の類似語決定方法。 - 請求項1乃至11の何れか一に記載の方法を実行させるためのプログラムを記録したことを特徴とするコンピュータで読み込み可能な記録媒体。
- 入力文字列が第1言語であるかまたは第2言語であるかを判断する入力文字列判断部と、
前記第2言語で表記された入力文字列を前記第1言語で表記された文字列に変換可能であるかを判断する文字列変換要否判断部と、
前記第2言語からなる入力文字列を前記第1言語に変換が可能である場合、前記第2言語からなる入力文字列を前記第1言語に変換する文字列変換部と、
前記第1言語に変換された文字列と候補文字列との編集距離を算出する第2編集距離算出部と、
前記候補文字列の中で、前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定する第2決定部と、
を含み、
前記入力文字列判断部は、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、
前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断することを特徴とする類似語決定システム。 - 前記第2言語が母国語である場合、
前記候補文字列の発音を前記第2言語で表記した文字列は、前記候補文字列が前記母国語に対する音差変換器によって変換されることを特徴とする請求項13に記載の類似語決定システム。 - 前記第2編集距離算出部が、
前記入力文字列が前記第1言語である場合、前記候補文字列と前記入力文字列との編集距離を算出し、
前記候補文字列の中で前記編集距離が基準値以下である候補文字列を前記入力文字列の類似語として決定することを特徴とする請求項13に記載の類似語決定システム。 - 前記第2言語からなる文字列を前記第1言語に変換可能でない場合、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出する第1編集距離算出部と、
前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定する第1決定部と、
をさらに含むことを特徴とする請求項13に記載の類似語決定システム。 - 前記文字列変換部は、
前記第1言語が外国語である場合、前記第2言語からなる入力文字列を該当する外国語からなる文字列に変換する前記該当する外国語に対する音差復元器であることを特徴とする請求項13に記載の類似語決定システム。 - 前記第1言語は外国語の中のいずれか1つであり、前記第2言語は母国語であることを特徴とする請求項13に記載の類似語決定システム。
- 前記入力文字列および候補文字列は、検索クエリーであることを特徴とする請求項13に記載の類似語決定システム。
- ユーザ端末から入力文字列を受信し、前記入力文字列に対する類似語を推奨クエリーとして前記ユーザ端末に提供するユーザインターフェース部をさらに備えることを特徴とする請求項13に記載の類似語決定システム。
- 前記候補文字列の中で前記編集距離が基準値以下である候補文字列は、前記編集距離算出のための演算毎にワイルドカード文字検索を用いて選定されることを特徴とする請求項13に記載の類似語決定システム。
- 入力文字列が第1言語であるかまたは第2言語であることを判断する入力文字列判断部と、
前記入力文字列が前記第2言語である場合、前記第1言語で表記された候補文字列の中で、前記候補文字列の発音を前記第2言語で表記した文字列と前記入力文字列との編集距離を算出する第1編集距離算出部と、
前記候補文字列の中で、前記入力文字列との前記編集距離が基準値以下である前記第2言語で表記した文字列に該当する前記第1言語で表記された候補文字列を前記入力文字列の類似語として決定する第1決定部と、
前記入力文字列と共通した文字を含み、前記入力文字列との文字類似度点数が上位N位以内である候補文字列の中の少なくとも1つを提供する候補文字列提供部と、
を備え、
前記入力文字列判断部は、前記入力文字列のすべての音節のそれぞれを所定の文字コードに変換し、すべての文字コードが所定の領域内に存在する場合に、前記入力文字列が前記第2言語であると判断し、
前記第1言語と前記第2言語が共に表記されている場合には前記入力文字列が前記第1言語であると判断することを特徴とする類似語決定システム。 - 前記入力文字列と共通した文字を含む候補文字列は、前記入力文字列と共通したN−gramを含む候補文字列であり、
前記文字類似度点数は、前記入力文字列と共通したN−gramの大きさ、前記共通したN−gramの個数、前記共通したN−gramが発見された位置の類似度、および前記入力文字列と前記各候補文字列の間の長さの差を用いて決定されることを特徴とする請求項22に記載の類似語決定システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2008-0124248 | 2008-12-08 | ||
KR1020080124248A KR101049358B1 (ko) | 2008-12-08 | 2008-12-08 | 유사어 결정 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010134922A JP2010134922A (ja) | 2010-06-17 |
JP5323652B2 true JP5323652B2 (ja) | 2013-10-23 |
Family
ID=42346105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009266174A Active JP5323652B2 (ja) | 2008-12-08 | 2009-11-24 | 類似語決定方法およびシステム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5323652B2 (ja) |
KR (1) | KR101049358B1 (ja) |
CN (1) | CN101751465B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268176B (zh) * | 2012-06-26 | 2017-10-31 | 北京奇虎科技有限公司 | 一种基于搜索关键词的推荐方法 |
KR101286296B1 (ko) | 2012-11-29 | 2013-07-15 | 김건오 | 워드그래프 관리 방법 및 시스템 |
WO2014136173A1 (ja) * | 2013-03-04 | 2014-09-12 | 三菱電機株式会社 | 検索装置 |
KR101483433B1 (ko) * | 2013-03-28 | 2015-01-16 | (주)이스트소프트 | 오타 교정 시스템 및 오타 교정 방법 |
CN104239495B (zh) * | 2014-09-09 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 搜索方法和搜索装置 |
KR101699478B1 (ko) * | 2015-06-23 | 2017-01-25 | 주식회사 비엔알아이 | 네이밍 분석 서버 및 분석 방법 |
KR102353381B1 (ko) | 2019-04-30 | 2022-01-19 | 정철환 | 작명을 지원하는 전자 장치, 방법, 및 컴퓨터 프로그램 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3285149B2 (ja) * | 1990-04-27 | 2002-05-27 | 富士ゼロックス株式会社 | 外国語電子辞書検索方法及び装置 |
JPH0628396A (ja) * | 1992-07-06 | 1994-02-04 | Canon Inc | 電子化辞書装置 |
JPH08339376A (ja) * | 1995-06-12 | 1996-12-24 | Toshiba Corp | 外国語検索装置及び情報検索システム |
JP2000127647A (ja) * | 1998-04-27 | 2000-05-09 | Nobuyuki Sotani | カナ見出しによる英単語の検索・調査用辞書および英単語の検索・調査装置 |
JP2000231559A (ja) * | 1999-02-12 | 2000-08-22 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
KR100318762B1 (ko) * | 1999-10-01 | 2002-01-04 | 윤덕용 | 외래어 음차표기의 음성적 거리 계산방법 |
JP3677016B2 (ja) * | 2002-10-21 | 2005-07-27 | 富士ゼロックス株式会社 | 外国語電子辞書検索装置 |
KR100542757B1 (ko) * | 2003-10-02 | 2006-01-20 | 한국전자통신연구원 | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 |
JP4035111B2 (ja) * | 2004-03-10 | 2008-01-16 | 日本放送協会 | 対訳語抽出装置、及び対訳語抽出プログラム |
JP4511892B2 (ja) * | 2004-07-26 | 2010-07-28 | ヤフー株式会社 | 類義語検索装置、その方法、そのプログラム、および、情報検索装置 |
JP4936650B2 (ja) * | 2004-07-26 | 2012-05-23 | ヤフー株式会社 | 類似単語検索装置、その方法、そのプログラム、および、情報検索装置 |
US7584093B2 (en) * | 2005-04-25 | 2009-09-01 | Microsoft Corporation | Method and system for generating spelling suggestions |
KR100643801B1 (ko) * | 2005-10-26 | 2006-11-10 | 엔에이치엔(주) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 |
KR100793378B1 (ko) * | 2006-06-28 | 2008-01-11 | 엔에이치엔(주) | 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템 |
JP2008084070A (ja) * | 2006-09-28 | 2008-04-10 | Toshiba Corp | 構造化文書検索装置およびプログラム |
JP2008140074A (ja) * | 2006-11-30 | 2008-06-19 | Casio Comput Co Ltd | 例文検索装置および例文検索処理プログラム |
-
2008
- 2008-12-08 KR KR1020080124248A patent/KR101049358B1/ko active IP Right Grant
-
2009
- 2009-11-24 JP JP2009266174A patent/JP5323652B2/ja active Active
- 2009-12-07 CN CN2009102503983A patent/CN101751465B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101751465B (zh) | 2013-05-08 |
KR20100065747A (ko) | 2010-06-17 |
JP2010134922A (ja) | 2010-06-17 |
CN101751465A (zh) | 2010-06-23 |
KR101049358B1 (ko) | 2011-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
JP4058071B2 (ja) | 用例翻訳装置、用例翻訳方法および用例翻訳プログラム | |
JP5323652B2 (ja) | 類似語決定方法およびシステム | |
TWI437449B (zh) | 多重模式輸入方法及輸入方法編輯器系統 | |
US8073680B2 (en) | Language detection service | |
JP5513898B2 (ja) | 共有された言語モデル | |
US20120059646A1 (en) | Script Detection Service | |
JP2009015512A (ja) | 機械翻訳を行う装置、方法およびプログラム | |
JP2010520531A (ja) | 統合ピンイン及び画入力 | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP2000298667A (ja) | 構文情報による漢字変換装置 | |
KR101941692B1 (ko) | 한국어 개체명 인식방법 및 장치 | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
CN114398876B (zh) | 一种基于有限状态转换器的文本纠错方法和装置 | |
JP2010211004A (ja) | 辞書作成装置、辞書作成システム、辞書作成方法および辞書作成プログラム | |
JP5481095B2 (ja) | 文字列入力装置、文字列入力方法、およびプログラム | |
JP7115187B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP5853688B2 (ja) | 言語処理プログラム、言語処理装置および言語処理方法 | |
JP2000200268A (ja) | 手書き文字入力変換装置及び文書作成装置とコンピュ―タ読み取り可能な記録媒体 | |
JP2015014877A (ja) | 未知語分類プログラム及び情報処理装置 | |
CN112951204A (zh) | 语音合成方法和装置 | |
JP5297234B2 (ja) | 日本語エイリアスデータベースを利用して長音及び促音に対するエラーを減らし、日本語入力機の使用の際に単字検索機能を提供する方法及びシステム | |
CN113268984A (zh) | 文本处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121009 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130109 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130115 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130207 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5323652 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |