JP2005251206A - 単語分割で使用される新単語収集方法およびシステム - Google Patents
単語分割で使用される新単語収集方法およびシステム Download PDFInfo
- Publication number
- JP2005251206A JP2005251206A JP2005058934A JP2005058934A JP2005251206A JP 2005251206 A JP2005251206 A JP 2005251206A JP 2005058934 A JP2005058934 A JP 2005058934A JP 2005058934 A JP2005058934 A JP 2005058934A JP 2005251206 A JP2005251206 A JP 2005251206A
- Authority
- JP
- Japan
- Prior art keywords
- word
- query
- candidate list
- lexicon
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Abstract
【解決手段】 この方法では、検索エンジンに提出されたクエリのログが取得される。このクエリのログを分類して、分類されたクエリを得る。次いで、複数のヒューリスティックな基準を使用して、分類されたクエリをフィルタリングして新しい単語の候補リストを得る。そして、新しい単語の候補リストの単語がレキシコンに加えられる。
【選択図】 図2
Description
・単語分割の結果は、「ら/る/く」あるいはそれに似たものとなる。
・ワードブレーカが、1文字のかなをノイズ語として破棄した場合は、すべての内容あるいはまとまりが破棄され、この語は、全く検索することができなくなる。
・ワードブレーカが、1文字のかなをノイズ語として破棄しない場合でも、「ら」または「る」または「く」との一致は数多くあり、これは、パフォーマンスにとっては負の要素となり、一致するドキュメントをランク付けする際に問題を引き起こす可能性がある。
・また、ワードブレーカは、状況によっては安定して良好に動作するとは限らない。
・単語分割の結果は、「らるく」あるいはそれに似たものになる。これは、悪い結果ではない。
・しかし、ワードブレーカは、状況によっては安定して良好に動作するとは限らない。ドキュメントがフレーズ「らるくに会った」を含むものとする。このフレーズの単語分割の結果は、「らる/くに/会った」となる可能性があり、これは「らるく」とは一致しない。
クエリ「らるく」 → 一語の「らるく」
ドキュメント中の「らるくに会った」 → 「らるく/に/会/った」
となる。
・単語分割の結果は、「ら/る/く」あるいはそれに似たものとなる。
・ワードブレーカが、1文字のかなをノイズ語として破棄した場合は、このクエリの大半の部分がノイズ語として破棄されてしまい、その結果このクエリは、明らかに新しい単語の候補となる。
・ワードブレーカが、1文字のかなをノイズ語として破棄しない場合は、単語分割の結果が、かなのかたまりとして小さすぎるかどうかを調べる。小さすぎる場合も、クエリは、新しい単語の良好な候補となる。一般に、表意文字を含む短い固まりは、深刻な検索上の問題にはつながらない。したがって、それらのケースは除外してよい。
・単語分割の結果は「らるく」になる。
・文字列「らるく」がレキシコンにあるかどうかを調べる。この文字列がレキシコンにない場合は、特にこのクエリがすべてかなで構成されていることを考えると、クエリは、新しい単語としてレキシコンに追加するのに適した候補であることになる。
130 システムメモリ
134、144 オペレーティングシステム
135、145 アプリケーションプログラム
136、146 他のプログラムモジュール
137、147 プログラムデータ
140 取り外し不能、不揮発性メモリインタフェース
150 取り外し可能、不揮発性メモリインタフェース
160 ユーザ入力インタフェース
161 ポインティングデバイス
162 キーボード
163 マイクロフォン
170 ネットワークインタフェース
172 モデム
171 ローカルエリアネットワーク
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインタフェース
191 モニタ
195 出力周辺インタフェース
196 プリンタ
197 スピーカ
210 文字列抽出モジュール
211 文字列
215 ドキュメントまたはサイト
220 単語分割モジュール
221 キーワード
225 レキシコンおよび/または専用レキシコン
230 文法
235 統計データ
240 ノイズ語リスト
250 インデックス
305 テキスト
310 単語リスト
320 ノイズ語排除
330 キーワード
340 キーワード探索モジュール
350 結果
410 クエリログ
420 クエリログ分類モジュール
421 分類されたクエリ
430 ヒューリスティックフィルタリングモジュール
431 新しい単語の候補リスト
440 人間によるフィルタリング
441 新しい単語のリスト
450 レキシコンおよび/または専用レキシコン
510 クエリ長フィルタ
520 クエリ頻度フィルタ
530 単語分割結果フィルタ
540 他の基準によるフィルタリング
Claims (20)
- 膠着言語のためのレキシコンに追加する新しい単語を収集する方法であって、
検索エンジンに提出されたクエリのログを取得するステップと、
前記クエリのログを分類して、分類されたクエリを得るステップと、
前記分類されたクエリを、複数のヒューリスティック基準を使用してフィルタリングして新しい単語の候補リストを得るステップと、
前記新しい単語の候補リストの単語をレキシコンに追加するステップと
を備えることを特徴とする方法。 - 前記複数のヒューリスティック基準を使用して前記分類されたクエリをフィルタリングして前記新しい単語の候補リストを得るステップはさらに、所定の閾値長よりも長いクエリを前記候補リストから除外するステップを備えることを特徴とする請求項1に記載の方法。
- 前記複数のヒューリスティック基準を使用して前記分類されたクエリをフィルタリングして前記新しい単語の候補リストを得るステップはさらに、前記クエリログに出現する頻度が所定の閾値出現頻度より少ないクエリを前記候補リストから除外するステップを備えることを特徴とする請求項2に記載の方法。
- 前記複数のヒューリスティック基準を使用して、前記分類されたクエリをフィルタリングして前記新しい単語の候補リストを得るステップはさらに、すでにワードブレーカにより1つの単語であると分析されたクエリを前記候補リストから除外するステップを備えることを特徴とする請求項3に記載の方法。
- 人間が前記新しい単語の候補リストをフィルタリングして新しい単語のリストを得るステップをさらに備え、前記新しい単語の候補リストの単語を前記レキシコンに追加するステップは、前記新しい単語のリストから単語を追加するステップを備えることを特徴とする請求項4に記載の方法。
- 前記新しい単語の候補リストから前記レキシコンに単語を追加するステップはさらに、前記新しい単語のリストから前記ワードブレーカによって使用されるレキシコンに単語を追加して、更新されたレキシコンを得るステップを備えることを特徴とする請求項5に記載の方法。
- 前記更新されたレキシコンを使用して、複数のドキュメントまたはサイトを再度索引付けするステップをさらに備えることを特徴とする請求項5に記載の方法。
- 前記更新されたレキシコンを使用して、検索エンジンのクエリ分析を行うステップをさらに備えることを特徴とする請求項7に記載の方法。
- 前記膠着言語は日本語であることを特徴とする請求項1に記載の方法。
- 前記複数のヒューリスティック基準をフィルタリングして前記新しい単語の候補リストを得るステップはさらに、日本語の文字種の制約に基づいて前記候補リストからクエリを除外するステップを備えることを特徴とする請求項9に記載の方法。
- 前記日本語の文字種の制約に基づいて前記候補リストからクエリを除外するステップはさらに、ひらがなまたはカタカナの文字列でないクエリを除外するステップを備えることを特徴とする請求項10に記載の方法。
- 前記日本語の文字種の制約に基づいて前記候補リストからクエリを除外するステップはさらに、前記分類されたクエリの前記文字種の組み合わせについてのヒューリスティックに基づいてクエリを除外するステップを備えることを特徴とする請求項10に記載の方法。
- 膠着言語で検索エンジンに提出されたクエリのログを分類して、分類されたクエリを得るステップと、
複数のヒューリスティック基準を使用して、前記分類されたクエリをフィルタリングして、レキシコンに追加する新しい単語の候補リストを得るステップと
を行うコンピュータ実行可能命令を有するコンピュータ可読媒体であって、
前記複数のヒューリスティック基準を使用して前記分類されたクエリをフィルタリングして前記新しい単語の候補リストを得るステップはさらに、所定の閾値長よりも長いクエリを前記候補リストから除外するステップを備えることを特徴とするコンピュータ可読媒体。 - 前記複数のヒューリスティック基準を使用して前記分類されたクエリをフィルタリングするステップはさらに、前記クエリログに出現する頻度が所定の閾値出現頻度より少ないクエリを前記候補リストから除外するステップを備えることを特徴とする請求項13に記載のコンピュータ可読媒体。
- 前記複数のヒューリスティック基準を使用して、前記分類されたクエリをフィルタリングするステップはさらに、すでにワードブレーカによって1つの単語であると分析されたクエリを前記候補リストから除外するステップを備えることを特徴とする請求項14に記載のコンピュータ可読媒体。
- 前記新しい単語の候補リストから前記レキシコンに単語を追加するステップを行うコンピュータ実行可能命令をさらに有することを特徴とする請求項15に記載のコンピュータ可読媒体。
- レキシコンに追加するために、検索エンジンに提出されたクエリのログから膠着言語の新しい単語を収集する新単語収集システムであって、
前記クエリのログを分類して、分類されたクエリを得るように構成されたクエリログ分類コンポーネントと、
複数のヒューリスティック基準を使用して、前記分類されたクエリをフィルタリングして、新しい単語の候補リストを得るように構成されたヒューリスティックフィルタリングコンポーネントと
を備えることを特徴とするシステム。 - 前記ヒューリスティックフィルタリングコンポーネントはさらに、所定の閾値長よりも長いクエリを前記新しい単語の候補リストから除外するように構成されたクエリ長フィルタを備えることを特徴とする請求項17に記載の新単語収集システム。
- 前記ヒューリスティックフィルタリングコンポーネントはさらに、前記クエリログに出現する頻度が所定の閾値出現頻度より少ないクエリを前記新しい単語の候補リストから除外するように構成されたクエリ頻度フィルタを備えることを特徴とする請求項18に記載の新単語収集システム。
- 前記ヒューリスティックフィルタリングコンポーネントはさらに、すでにワードブレーカによって1つの単語であると分析されたクエリを前記新しい単語の候補リストから除外するように構成された単語分割結果フィルタを備えることを特徴とする請求項19に記載の新単語収集システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/792,443 US7424421B2 (en) | 2004-03-03 | 2004-03-03 | Word collection method and system for use in word-breaking |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005251206A true JP2005251206A (ja) | 2005-09-15 |
Family
ID=34911853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005058934A Pending JP2005251206A (ja) | 2004-03-03 | 2005-03-03 | 単語分割で使用される新単語収集方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7424421B2 (ja) |
JP (1) | JP2005251206A (ja) |
KR (1) | KR101122942B1 (ja) |
CN (1) | CN1664818B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182238A (ja) * | 2009-02-09 | 2010-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体 |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050149388A1 (en) * | 2003-12-30 | 2005-07-07 | Scholl Nathaniel B. | Method and system for placing advertisements based on selection of links that are not prominently displayed |
US7783476B2 (en) * | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
US7752200B2 (en) * | 2004-08-09 | 2010-07-06 | Amazon Technologies, Inc. | Method and system for identifying keywords for use in placing keyword-targeted advertisements |
US8051096B1 (en) | 2004-09-30 | 2011-11-01 | Google Inc. | Methods and systems for augmenting a token lexicon |
WO2007029348A1 (ja) | 2005-09-06 | 2007-03-15 | Community Engine Inc. | データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム |
US7624099B2 (en) * | 2005-10-13 | 2009-11-24 | Microsoft Corporation | Client-server word-breaking framework |
US7941418B2 (en) * | 2005-11-09 | 2011-05-10 | Microsoft Corporation | Dynamic corpus generation |
US8176128B1 (en) * | 2005-12-02 | 2012-05-08 | Oracle America, Inc. | Method of selecting character encoding for international e-mail messages |
JP4720570B2 (ja) * | 2006-03-27 | 2011-07-13 | カシオ計算機株式会社 | 情報表示制御装置及び情報表示制御プログラム |
US20080027911A1 (en) * | 2006-07-28 | 2008-01-31 | Microsoft Corporation | Language Search Tool |
US8131722B2 (en) * | 2006-11-20 | 2012-03-06 | Ebay Inc. | Search clustering |
US7818341B2 (en) | 2007-03-19 | 2010-10-19 | Microsoft Corporation | Using scenario-related information to customize user experiences |
US7797311B2 (en) * | 2007-03-19 | 2010-09-14 | Microsoft Corporation | Organizing scenario-related information and controlling access thereto |
US8078604B2 (en) | 2007-03-19 | 2011-12-13 | Microsoft Corporation | Identifying executable scenarios in response to search queries |
CN101815996A (zh) * | 2007-06-01 | 2010-08-25 | 谷歌股份有限公司 | 检测名称实体和新词 |
JP5241828B2 (ja) * | 2007-06-14 | 2013-07-17 | グーグル・インコーポレーテッド | 辞書の単語及び熟語の判定 |
WO2008151466A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
US8046355B2 (en) * | 2007-09-04 | 2011-10-25 | Google Inc. | Word decompounder |
US7877404B2 (en) * | 2008-03-05 | 2011-01-25 | Microsoft Corporation | Query classification based on query click logs |
US8407236B2 (en) * | 2008-10-03 | 2013-03-26 | Microsoft Corp. | Mining new words from a query log for input method editors |
CN101430680B (zh) * | 2008-12-31 | 2011-01-19 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及系统 |
CN101477542B (zh) * | 2009-01-22 | 2013-02-13 | 阿里巴巴集团控股有限公司 | 一种抽样分析方法、系统和设备 |
CN101615204A (zh) * | 2009-07-24 | 2009-12-30 | 中兴通讯股份有限公司 | 输入法词库中添加自定义词的方法、装置及汉字输入设备 |
CN102270048B (zh) * | 2010-06-03 | 2016-04-20 | 北京搜狗科技发展有限公司 | 一种名词输入的方法及系统 |
CN102411563B (zh) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
CN102479191B (zh) | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
CN102654873A (zh) * | 2011-03-03 | 2012-09-05 | 苏州同程旅游网络科技有限公司 | 基于中文分词的旅游信息抽取与聚合方法 |
US10198506B2 (en) * | 2011-07-11 | 2019-02-05 | Lexxe Pty Ltd. | System and method of sentiment data generation |
US9483459B1 (en) * | 2012-03-31 | 2016-11-01 | Google Inc. | Natural language correction for speech input |
CN103425691B (zh) | 2012-05-22 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
US8589164B1 (en) * | 2012-10-18 | 2013-11-19 | Google Inc. | Methods and systems for speech recognition processing using search query information |
US8996355B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US8990068B2 (en) | 2013-02-08 | 2015-03-24 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US8996353B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
CN103136191A (zh) * | 2013-03-14 | 2013-06-05 | 姚明东 | 一种电子商务字典中单字词的自动抽取方法 |
CN104076940A (zh) * | 2013-03-27 | 2014-10-01 | 北京千橡网景科技发展有限公司 | 一种辅助输入方法和设备 |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
CN107391504B (zh) * | 2016-05-16 | 2021-01-29 | 华为技术有限公司 | 新词识别方法与装置 |
CN106021430B (zh) * | 2016-05-16 | 2018-01-19 | 武汉斗鱼网络科技有限公司 | 基于Lucence自定义词库的全文检索匹配方法及系统 |
WO2019060353A1 (en) | 2017-09-21 | 2019-03-28 | Mz Ip Holdings, Llc | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES |
CN108733831B (zh) * | 2018-05-25 | 2022-05-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种对词库进行处理的方法及装置 |
US10740381B2 (en) * | 2018-07-18 | 2020-08-11 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
CN111737950B (zh) * | 2020-08-27 | 2020-12-08 | 北京安帝科技有限公司 | 一种电厂区域设备异常判断方法 |
US11868341B2 (en) * | 2020-10-15 | 2024-01-09 | Microsoft Technology Licensing, Llc | Identification of content gaps based on relative user-selection rates between multiple discrete content sources |
CN113111655B (zh) * | 2021-05-12 | 2023-01-31 | 数库(上海)科技有限公司 | 分离词典的构建方法、基于分离词典的分词方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04222055A (ja) * | 1990-12-25 | 1992-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 個人シソーラス作成支援装置 |
JPH04340163A (ja) * | 1991-01-28 | 1992-11-26 | Pfu Ltd | キーワード検索方式 |
JPH09204437A (ja) * | 1996-01-26 | 1997-08-05 | Fuji Xerox Co Ltd | 文書検索装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
US6035268A (en) * | 1996-08-22 | 2000-03-07 | Lernout & Hauspie Speech Products N.V. | Method and apparatus for breaking words in a stream of text |
JP4302326B2 (ja) * | 1998-11-30 | 2009-07-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テキストの自動区分 |
US7505905B1 (en) * | 1999-05-13 | 2009-03-17 | Nuance Communications, Inc. | In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR) |
JP2001043221A (ja) * | 1999-07-29 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 中国語単語分割装置 |
CN1360261A (zh) * | 2001-11-29 | 2002-07-24 | 上海复旦光华信息科技股份有限公司 | 旁路式数据库访问侦听与还原的方法 |
US7113950B2 (en) * | 2002-06-27 | 2006-09-26 | Microsoft Corporation | Automated error checking system and method |
-
2004
- 2004-03-03 US US10/792,443 patent/US7424421B2/en not_active Expired - Fee Related
-
2005
- 2005-03-03 JP JP2005058934A patent/JP2005251206A/ja active Pending
- 2005-03-03 CN CN200510053170.7A patent/CN1664818B/zh not_active Expired - Fee Related
- 2005-03-03 KR KR1020050017754A patent/KR101122942B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04222055A (ja) * | 1990-12-25 | 1992-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 個人シソーラス作成支援装置 |
JPH04340163A (ja) * | 1991-01-28 | 1992-11-26 | Pfu Ltd | キーワード検索方式 |
JPH09204437A (ja) * | 1996-01-26 | 1997-08-05 | Fuji Xerox Co Ltd | 文書検索装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182238A (ja) * | 2009-02-09 | 2010-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN1664818A (zh) | 2005-09-07 |
CN1664818B (zh) | 2015-08-05 |
KR20060043381A (ko) | 2006-05-15 |
KR101122942B1 (ko) | 2012-03-20 |
US7424421B2 (en) | 2008-09-09 |
US20050197829A1 (en) | 2005-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
US7783476B2 (en) | Word extraction method and system for use in word-breaking using statistical information | |
US8661012B1 (en) | Ensuring that a synonym for a query phrase does not drop information present in the query phrase | |
US7949514B2 (en) | Method for building parallel corpora | |
US7925498B1 (en) | Identifying a synonym with N-gram agreement for a query phrase | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
US8781817B2 (en) | Phrase based document clustering with automatic phrase extraction | |
US8938384B2 (en) | Language identification for documents containing multiple languages | |
US8392440B1 (en) | Online de-compounding of query terms | |
US8407236B2 (en) | Mining new words from a query log for input method editors | |
US8280721B2 (en) | Efficiently representing word sense probabilities | |
US20060200464A1 (en) | Method and system for generating a document summary | |
US8122022B1 (en) | Abbreviation detection for common synonym generation | |
JP2003345796A (ja) | コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 | |
WO2011006300A1 (en) | Acronym extraction | |
US20150006563A1 (en) | Transitive Synonym Creation | |
JP2011118689A (ja) | 検索方法及びシステム | |
US20100185438A1 (en) | Method of creating a dictionary | |
Wijeratne et al. | Sinhala language corpora and stopwords from a decade of sri lankan facebook | |
US9183297B1 (en) | Method and apparatus for generating lexical synonyms for query terms | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
US10380195B1 (en) | Grouping documents by content similarity | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101020 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110810 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20110811 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110811 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110831 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20111125 |