JP5788015B2 - 複数の粒度でのテキスト分割 - Google Patents
複数の粒度でのテキスト分割 Download PDFInfo
- Publication number
- JP5788015B2 JP5788015B2 JP2013539361A JP2013539361A JP5788015B2 JP 5788015 B2 JP5788015 B2 JP 5788015B2 JP 2013539361 A JP2013539361 A JP 2013539361A JP 2013539361 A JP2013539361 A JP 2013539361A JP 5788015 B2 JP5788015 B2 JP 5788015B2
- Authority
- JP
- Japan
- Prior art keywords
- entry
- semantic unit
- dictionary
- training sample
- entries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本願は、すべての目的のために参照により本明細書に組み込まれる、発明の名称を「A METHOD OF PROVIDING MULTI−GRANULARITY SEGMENTATION RESULTS AND A DEVICE FOR SAME(複数粒度の分割結果を提供するための方法および装置)」とする、2010年11月22日出願の中国特許出願第201010555763.4号に基づく優先権を主張する。
適用例1:テキスト処理の方法であって、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得し、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成すること、を備える、方法。
適用例2:適用例1に記載の方法であって、さらに、テキストを分類するための分類子を訓練し、前記訓練は、複数の訓練サンプルエントリに基づいて行われ、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書を構築し、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含むこと、を備える、方法。
適用例3:適用例1に記載の方法であって、前記受信したテキストは、単語区切り記号のない言語である、方法。
適用例4:適用例2に記載の方法であって、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加することを備える、方法。
適用例5:適用例2に記載の方法であって、前記訓練された分類子を用いた前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、方法。
適用例6:適用例2に記載の方法であって、さらに、前記エントリに対応する検索要素を決定し、前記最小意味単位の辞書に前記検索要素を保存すること、を備える、方法。
適用例7:適用例2に記載の方法であって、前記エントリに対応する検索要素の決定は、前記エントリが分割可能であるか否かを判定し、前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、方法。
適用例8:適用例1に記載の方法であって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、前記中間粒度の分割結果の曖昧性を解決することを含む、方法。
適用例9: テキスト処理のためのシステムであって、1または複数のプロセッサであって、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得し、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成するよう構成されている1または複数のプロセッサと、前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、を備える、システム。
適用例10:適用例9に記載のシステムであって、前記1または複数のプロセッサは、さらに、複数の訓練サンプルエントリに基づいて、テキストを分類するための分類子を訓練し、前記最小意味単位の辞書を構築するよう構成され、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含む、システム。
適用例11:適用例9に記載のシステムであって、前記テキストは、単語区切り記号のない言語である、システム。
適用例12:適用例10に記載のシステムであって、前記1または複数のプロセッサは、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加するよう構成されている、システム。
適用例13:適用例10に記載のシステムであって、前記訓練された分類子を用いた、前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、システム。
適用例14:適用例10に記載のシステムであって、前記1または複数のプロセッサは、さらに、前記エントリに対応する検索要素を決定しと、前記最小意味単位の辞書に前記検索要素を保存するよう構成されている、システム。
適用例15:適用例10に記載のシステムであって、前記エントリに対応する検索要素の決定は、前記エントリが分割可能であるか否かを判定し、前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、システム。
適用例16:適用例9に記載のシステムであって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、前記中間粒度の分割結果の曖昧性を解決することを含む、システム。
適用例17: テキスト処理ためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体内に具現化され、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得するためのコンピュータ命令と、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得するためのコンピュータ命令と、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索するためのコンピュータ命令と、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成するためのコンピュータ命令と、を備える、コンピュータプログラム製品。
適用例18:適用例17に記載のコンピュータプログラム製品であって、さらに、複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練するためのコンピュータ命令と、前記最小意味単位の辞書を構築するためのコンピュータ命令とを備え、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加すること、を含む、コンピュータプログラム製品。
適用例19: テキスト処理のためのシステムであって、1または複数のプロセッサであって、複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練し、最小意味単位の辞書を構築するよう構成されている、1または複数のプロセッサと、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含み、前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、を備える、システム。
Claims (17)
- コンピュータによって実行される、テキスト処理の方法であって、
最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することであって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、
単語分割ツリー構造を形成し、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、
対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成し、
前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノードを取得すること、
を備える、方法。 - 請求項1に記載の方法であって、さらに、
テキストを分類するための分類子を訓練し、
前記訓練は、複数の訓練サンプルエントリに基づいて行われ、
前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
文字数と、
単独利用率と、
前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
前記最小意味単位の辞書を構築し、
前記最小意味単位の辞書の構築は、
分類対象のエントリを受信し、
前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加することを含むこと、
を備える、方法。 - 請求項1に記載の方法であって、前記受信したテキストは、単語区切り記号のない言語である、方法。
- 請求項2に記載の方法であって、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加することを備える、方法。
- 請求項2に記載の方法であって、前記訓練された分類子を用いた前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、方法。
- 請求項2に記載の方法であって、前記エントリに対応する検索要素の決定は、
前記エントリが固有名詞であるか否かおよび意味的にさらに分割可能であるか否かに基づいて前記エントリが分割可能であるか否かを判定し、
前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、
前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、方法。 - 請求項1に記載の方法であって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、曖昧性除去モデルに基づいて前記中間粒度の分割結果の曖昧性を解決することを含む、方法。
- テキスト処理のためのシステムであって、
1または複数のプロセッサであって、
最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することであって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、
単語分割ツリー構造を形成し、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、
対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成し、
前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノードを取得するよう構成されている1または複数のプロセッサと、
前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、
を備える、システム。 - 請求項8に記載のシステムであって、前記1または複数のプロセッサは、さらに、
複数の訓練サンプルエントリに基づいて、テキストを分類するための分類子を訓練し、
前記最小意味単位の辞書を構築するよう構成され、
前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
文字数と、
単独利用率と、
前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
前記最小意味単位の辞書の構築は、
分類対象のエントリを受信し、
前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加することを含む、
システム。 - 請求項8に記載のシステムであって、前記テキストは、単語区切り記号のない言語である、システム。
- 請求項9に記載のシステムであって、前記1または複数のプロセッサは、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加するよう構成されている、システム。
- 請求項9に記載のシステムであって、前記訓練された分類子を用いた、前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、システム。
- 請求項9に記載のシステムであって、前記エントリに対応する検索要素の決定は、
前記エントリが固有名詞であるか否かおよび意味的にさらに分割可能であるか否かに基づいて前記エントリが分割可能であるか否かを判定し、
前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、
前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、システム。 - 請求項8に記載のシステムであって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、曖昧性除去モデルに基づいて前記中間粒度の分割結果の曖昧性を解決することを含む、システム。
- テキスト処理ためのコンピュータプログラムであって、
最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得するための機能であって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得するための機能と、
単語分割ツリー構造を形成するための機能と、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索するための機能と、
対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成するための機能と、
前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノードを取得するための機能と、
をコンピュータによって実現させるコンピュータプログラム。 - 請求項15に記載のコンピュータプログラムであって、さらに、
複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練するための機能と、
前記最小意味単位の辞書を構築するための機能とをコンピュータによって実現させ、
前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
文字数と、
単独利用率と、
前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
前記最小意味単位の辞書の構築は、
分類対象のエントリを受信し、
前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加すること、を含む、コンピュータプログラム。 - テキスト処理のためのシステムであって、
1または複数のプロセッサであって、
複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練し、
最小意味単位の辞書を構築するよう構成されている、1または複数のプロセッサと
前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
文字数と、
単独利用率と、
前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
最小意味単位の辞書の構築は、
分類対象のエントリを受信し、
前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含み、
前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、
を備える、システム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010555763.4A CN102479191B (zh) | 2010-11-22 | 2010-11-22 | 提供多粒度分词结果的方法及其装置 |
CN201010555763.4 | 2010-11-22 | ||
US13/298,941 US8892420B2 (en) | 2010-11-22 | 2011-11-17 | Text segmentation with multiple granularity levels |
US13/298,941 | 2011-11-17 | ||
PCT/IB2011/003364 WO2012095696A2 (en) | 2010-11-22 | 2011-11-18 | Text segmentation with multiple granularity levels |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014500547A JP2014500547A (ja) | 2014-01-09 |
JP5788015B2 true JP5788015B2 (ja) | 2015-09-30 |
Family
ID=46065146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013539361A Expired - Fee Related JP5788015B2 (ja) | 2010-11-22 | 2011-11-18 | 複数の粒度でのテキスト分割 |
Country Status (7)
Country | Link |
---|---|
US (3) | US8892420B2 (ja) |
EP (1) | EP2643770A4 (ja) |
JP (1) | JP5788015B2 (ja) |
CN (1) | CN102479191B (ja) |
HK (1) | HK1167028A1 (ja) |
TW (1) | TWI512507B (ja) |
WO (1) | WO2012095696A2 (ja) |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721238B2 (en) | 2009-02-13 | 2017-08-01 | Visa U.S.A. Inc. | Point of interaction loyalty currency redemption in a transaction |
US9031859B2 (en) | 2009-05-21 | 2015-05-12 | Visa U.S.A. Inc. | Rebate automation |
US8463706B2 (en) | 2009-08-24 | 2013-06-11 | Visa U.S.A. Inc. | Coupon bearing sponsor account transaction authorization |
CN102479191B (zh) | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
US8782042B1 (en) * | 2011-10-14 | 2014-07-15 | Firstrain, Inc. | Method and system for identifying entities |
US10360578B2 (en) | 2012-01-30 | 2019-07-23 | Visa International Service Association | Systems and methods to process payments based on payment deals |
FR2986882A1 (fr) * | 2012-02-09 | 2013-08-16 | Mining Essential | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe |
US8880431B2 (en) | 2012-03-16 | 2014-11-04 | Visa International Service Association | Systems and methods to generate a receipt for a transaction |
US9460436B2 (en) | 2012-03-16 | 2016-10-04 | Visa International Service Association | Systems and methods to apply the benefit of offers via a transaction handler |
US9922338B2 (en) | 2012-03-23 | 2018-03-20 | Visa International Service Association | Systems and methods to apply benefit of offers |
US9495690B2 (en) | 2012-04-04 | 2016-11-15 | Visa International Service Association | Systems and methods to process transactions and offers via a gateway |
CN103425691B (zh) * | 2012-05-22 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
US9864988B2 (en) | 2012-06-15 | 2018-01-09 | Visa International Service Association | Payment processing for qualified transaction items |
US9626678B2 (en) | 2012-08-01 | 2017-04-18 | Visa International Service Association | Systems and methods to enhance security in transactions |
US10438199B2 (en) | 2012-08-10 | 2019-10-08 | Visa International Service Association | Systems and methods to apply values from stored value accounts to payment transactions |
US10685367B2 (en) | 2012-11-05 | 2020-06-16 | Visa International Service Association | Systems and methods to provide offer benefits based on issuer identity |
US10629186B1 (en) * | 2013-03-11 | 2020-04-21 | Amazon Technologies, Inc. | Domain and intent name feature identification and processing |
US10592980B1 (en) | 2013-03-15 | 2020-03-17 | Intuit Inc. | Systems methods and computer program products for identifying financial accounts utilized for business purposes |
CN103400579B (zh) * | 2013-08-04 | 2015-11-18 | 徐华 | 一种语音识别系统和构建方法 |
CN104679738B (zh) * | 2013-11-27 | 2018-02-27 | 北京拓尔思信息技术股份有限公司 | 互联网热词挖掘方法及装置 |
CN103942347B (zh) * | 2014-05-19 | 2017-04-05 | 焦点科技股份有限公司 | 一种基于多维度综合词库的分词方法 |
CN104050294A (zh) * | 2014-06-30 | 2014-09-17 | 北京奇虎科技有限公司 | 互联网稀有资源的挖掘方法及装置 |
CN104317882B (zh) * | 2014-10-21 | 2017-05-10 | 北京理工大学 | 一种决策级中文分词融合方法 |
CN104598573B (zh) * | 2015-01-13 | 2017-06-16 | 北京京东尚科信息技术有限公司 | 一种用户的生活圈提取方法及系统 |
CN104965818B (zh) * | 2015-05-25 | 2018-01-05 | 中国科学院信息工程研究所 | 一种基于自学习规则的项目名实体识别方法及系统 |
CN106649249A (zh) * | 2015-07-14 | 2017-05-10 | 比亚迪股份有限公司 | 检索方法和检索装置 |
CN106547743B (zh) | 2015-09-23 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 一种进行翻译的方法及其系统 |
CN105550170B (zh) * | 2015-12-14 | 2018-10-12 | 北京锐安科技有限公司 | 一种中文分词方法及装置 |
US10224034B2 (en) * | 2016-02-03 | 2019-03-05 | Hua Xu | Voice recognition system and construction method thereof |
CN107291684B (zh) * | 2016-04-12 | 2021-02-09 | 华为技术有限公司 | 语言文本的分词方法和系统 |
US20170371850A1 (en) * | 2016-06-22 | 2017-12-28 | Google Inc. | Phonetics-based computer transliteration techniques |
CN106202039B (zh) * | 2016-06-30 | 2019-06-11 | 昆明理工大学 | 基于条件随机场的越南语组合词消歧方法 |
CN106202464B (zh) * | 2016-07-18 | 2019-12-17 | 上海轻维软件有限公司 | 一种基于变异回溯算法的数据识别方法 |
CN106227719B (zh) * | 2016-07-26 | 2018-10-23 | 北京智能管家科技有限公司 | 中文分词歧义消除方法和系统 |
CN106484677B (zh) * | 2016-09-30 | 2019-02-12 | 北京林业大学 | 一种基于最小信息量的汉语快速分词系统及方法 |
CN106569997B (zh) * | 2016-10-19 | 2019-12-10 | 中国科学院信息工程研究所 | 一种基于隐式马尔科夫模型的科技类复合短语识别方法 |
CN108073566B (zh) * | 2016-11-16 | 2022-01-18 | 北京搜狗科技发展有限公司 | 分词方法和装置、用于分词的装置 |
TWI656450B (zh) * | 2017-01-06 | 2019-04-11 | 香港商光訊網絡科技有限公司 | 從中文語料庫提取知識的方法和系統 |
US10176889B2 (en) | 2017-02-09 | 2019-01-08 | International Business Machines Corporation | Segmenting and interpreting a document, and relocating document fragments to corresponding sections |
US10169325B2 (en) | 2017-02-09 | 2019-01-01 | International Business Machines Corporation | Segmenting and interpreting a document, and relocating document fragments to corresponding sections |
CN107168992A (zh) * | 2017-03-29 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的文章分类方法及装置、设备与可读介质 |
EP3642733A4 (en) * | 2017-07-31 | 2020-07-22 | Beijing Didi Infinity Technology and Development Co., Ltd. | SYSTEM AND PROCESS FOR SEGMENTING A SENTENCE |
CN107729312B (zh) * | 2017-09-05 | 2021-04-20 | 苏州大学 | 基于序列标注建模的多粒度分词方法及系统 |
CN107818079A (zh) * | 2017-09-05 | 2018-03-20 | 苏州大学 | 多粒度分词标注数据自动获取方法及系统 |
US11750897B2 (en) * | 2017-09-07 | 2023-09-05 | Studeo Realty Marketing Inc. | Generating sequential visual narratives |
CN108304373B (zh) * | 2017-10-13 | 2021-07-09 | 腾讯科技(深圳)有限公司 | 语义词典的构建方法、装置、存储介质和电子装置 |
US10607604B2 (en) * | 2017-10-27 | 2020-03-31 | International Business Machines Corporation | Method for re-aligning corpus and improving the consistency |
CN108052500B (zh) * | 2017-12-13 | 2021-06-22 | 北京数洋智慧科技有限公司 | 一种基于语义分析的文本关键信息提取方法及装置 |
CN109635157B (zh) * | 2018-10-30 | 2021-05-25 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频搜索方法、装置、终端及存储介质 |
US10885282B2 (en) * | 2018-12-07 | 2021-01-05 | Microsoft Technology Licensing, Llc | Document heading detection |
WO2020167586A1 (en) * | 2019-02-11 | 2020-08-20 | Db Cybertech, Inc. | Automated data discovery for cybersecurity |
JP7293767B2 (ja) * | 2019-03-19 | 2023-06-20 | 株式会社リコー | テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム |
CN110210034B (zh) * | 2019-05-31 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 信息查询方法、装置、终端及存储介质 |
CN110457551B (zh) * | 2019-08-14 | 2021-04-23 | 梁冰 | 自然语言的语义递归表示系统的构造方法 |
CN111104800B (zh) * | 2019-12-24 | 2024-01-23 | 东软集团股份有限公司 | 一种实体识别方法、装置、设备、存储介质和程序产品 |
CN111274353B (zh) * | 2020-01-14 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 文本切词方法、装置、设备和介质 |
CN111931034B (zh) * | 2020-08-24 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 数据搜索方法、装置、设备及存储介质 |
CN112017773B (zh) * | 2020-08-31 | 2024-03-26 | 吾征智能技术(北京)有限公司 | 一种基于噩梦的疾病认知模型构建方法及疾病认知系统 |
US11373041B2 (en) | 2020-09-18 | 2022-06-28 | International Business Machines Corporation | Text classification using models with complementary granularity and accuracy |
CN112784574B (zh) * | 2021-02-02 | 2023-09-15 | 网易(杭州)网络有限公司 | 一种文本分割方法、装置、电子设备及介质 |
CN114386407B (zh) * | 2021-12-23 | 2023-04-11 | 北京金堤科技有限公司 | 文本的分词方法及装置 |
CN116186698A (zh) * | 2022-12-16 | 2023-05-30 | 广东技术师范大学 | 一种基于机器学习的安全数据处理方法、介质及设备 |
CN116991980B (zh) * | 2023-09-27 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 文本筛选模型训练方法及相关方法、装置、介质及设备 |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
JPH04262460A (ja) | 1991-02-15 | 1992-09-17 | Ricoh Co Ltd | 情報検索装置 |
US6202058B1 (en) | 1994-04-25 | 2001-03-13 | Apple Computer, Inc. | System for ranking the relevance of information objects accessed by computer users |
JP3617096B2 (ja) | 1994-05-25 | 2005-02-02 | 富士ゼロックス株式会社 | 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法 |
US7133835B1 (en) | 1995-08-08 | 2006-11-07 | Cxn, Inc. | Online exchange market system with a buyer auction and a seller auction |
JP3565239B2 (ja) | 1996-09-03 | 2004-09-15 | 日本電信電話株式会社 | 情報検索装置 |
WO2001046858A1 (fr) | 1999-12-21 | 2001-06-28 | Matsushita Electric Industrial Co., Ltd. | Creation d'un indice vectoriel, recherche de vecteurs similaires et dispositifs correspondants |
US7092871B2 (en) | 2000-07-20 | 2006-08-15 | Microsoft Corporation | Tokenizer for a natural language processing system |
US20020157116A1 (en) | 2000-07-28 | 2002-10-24 | Koninklijke Philips Electronics N.V. | Context and content based information processing for multimedia segmentation and indexing |
US7403938B2 (en) * | 2001-09-24 | 2008-07-22 | Iac Search & Media, Inc. | Natural language query processing |
US7805302B2 (en) * | 2002-05-20 | 2010-09-28 | Microsoft Corporation | Applying a structured language model to information extraction |
WO2004079631A2 (en) | 2003-03-03 | 2004-09-16 | Koninklijke Philips Electronics N.V. | Method and arrangement for searching for strings |
US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
JP4754247B2 (ja) * | 2004-03-31 | 2011-08-24 | オセ−テクノロジーズ ビーブイ | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 |
US20080077570A1 (en) | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US8200687B2 (en) | 2005-06-20 | 2012-06-12 | Ebay Inc. | System to generate related search queries |
US20070067098A1 (en) | 2005-09-19 | 2007-03-22 | Zelentsov Oleg U | Method and system for identification of geographic location |
US8255383B2 (en) | 2006-07-14 | 2012-08-28 | Chacha Search, Inc | Method and system for qualifying keywords in query strings |
WO2008019007A2 (en) | 2006-08-04 | 2008-02-14 | Thefind, Inc. | Method for relevancy ranking of products in online shopping |
JP2008287406A (ja) * | 2007-05-16 | 2008-11-27 | Sony Corp | 情報処理装置および情報処理方法、プログラム、並びに、記録媒体 |
TW200926033A (en) * | 2007-07-18 | 2009-06-16 | Steven Kays | Adaptive electronic design |
US20090076927A1 (en) | 2007-08-27 | 2009-03-19 | Google Inc. | Distinguishing accessories from products for ranking search results |
US8301633B2 (en) * | 2007-10-01 | 2012-10-30 | Palo Alto Research Center Incorporated | System and method for semantic search |
US8019748B1 (en) | 2007-11-14 | 2011-09-13 | Google Inc. | Web search refinement |
WO2009084554A1 (ja) | 2007-12-27 | 2009-07-09 | Nec Corporation | テキスト分割装置とテキスト分割方法およびプログラム |
CN101246472B (zh) * | 2008-03-28 | 2010-10-06 | 腾讯科技(深圳)有限公司 | 一种汉语文本的大、小粒度切分实现方法和装置 |
JP4979637B2 (ja) | 2008-06-06 | 2012-07-18 | ヤフー株式会社 | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム |
US8862989B2 (en) * | 2008-06-25 | 2014-10-14 | Microsoft Corporation | Extensible input method editor dictionary |
EP2259252B1 (en) | 2009-06-02 | 2012-08-01 | Nuance Communications, Inc. | Speech recognition method for selecting a combination of list elements via a speech input |
CN101655838B (zh) * | 2009-09-10 | 2011-12-14 | 复旦大学 | 一种粒度可量化的话题提取方法 |
US20110093331A1 (en) | 2009-10-19 | 2011-04-21 | Donald Metzler | Term Weighting for Contextual Advertising |
US9348892B2 (en) | 2010-01-27 | 2016-05-24 | International Business Machines Corporation | Natural language interface for faceted search/analysis of semistructured data |
CN102859515B (zh) * | 2010-02-12 | 2016-01-13 | 谷歌公司 | 复合词拆分 |
CN102236663B (zh) | 2010-04-30 | 2014-04-09 | 阿里巴巴集团控股有限公司 | 一种基于垂直搜索的查询方法、系统和装置 |
US8515968B1 (en) | 2010-08-13 | 2013-08-20 | Google Inc. | Tie breaking rules for content item matching |
CN102479191B (zh) | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
CA2721498C (en) | 2010-11-25 | 2011-08-02 | Microsoft Corporation | Efficient use of exceptions in text segmentation |
US20120191745A1 (en) | 2011-01-24 | 2012-07-26 | Yahoo!, Inc. | Synthesized Suggestions for Web-Search Queries |
US20120317088A1 (en) | 2011-06-07 | 2012-12-13 | Microsoft Corporation | Associating Search Queries and Entities |
-
2010
- 2010-11-22 CN CN201010555763.4A patent/CN102479191B/zh active Active
-
2011
- 2011-03-10 TW TW100108081A patent/TWI512507B/zh not_active IP Right Cessation
- 2011-11-17 US US13/298,941 patent/US8892420B2/en active Active
- 2011-11-18 WO PCT/IB2011/003364 patent/WO2012095696A2/en active Application Filing
- 2011-11-18 JP JP2013539361A patent/JP5788015B2/ja not_active Expired - Fee Related
- 2011-11-18 EP EP11855317.1A patent/EP2643770A4/en not_active Withdrawn
-
2012
- 2012-08-07 HK HK12107731.5A patent/HK1167028A1/xx not_active IP Right Cessation
-
2014
- 2014-10-14 US US14/514,279 patent/US9223779B2/en active Active
-
2015
- 2015-10-13 US US14/881,927 patent/US20160132492A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP2643770A2 (en) | 2013-10-02 |
EP2643770A4 (en) | 2017-12-27 |
US8892420B2 (en) | 2014-11-18 |
TW201222291A (en) | 2012-06-01 |
TWI512507B (zh) | 2015-12-11 |
JP2014500547A (ja) | 2014-01-09 |
HK1167028A1 (en) | 2012-11-16 |
WO2012095696A3 (en) | 2012-11-08 |
CN102479191B (zh) | 2014-03-26 |
WO2012095696A2 (en) | 2012-07-19 |
US9223779B2 (en) | 2015-12-29 |
CN102479191A (zh) | 2012-05-30 |
US20120130705A1 (en) | 2012-05-24 |
US20160132492A1 (en) | 2016-05-12 |
US20150100307A1 (en) | 2015-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5788015B2 (ja) | 複数の粒度でのテキスト分割 | |
KR101339103B1 (ko) | 의미적 자질을 이용한 문서 분류 시스템 및 그 방법 | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
Yan et al. | Named entity recognition by using XLNet-BiLSTM-CRF | |
US11429792B2 (en) | Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
EP3598321A1 (en) | Method for parsing natural language text with constituent construction links | |
JP2004318510A (ja) | 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法 | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
JP4900947B2 (ja) | 略語抽出方法、略語抽出装置およびプログラム | |
WO2009136426A1 (ja) | 検索クエリ提供装置 | |
CN113330430B (zh) | 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
Burkhardt et al. | Semi-Automatic Ontology Engineering in Business Applications | |
KR100952077B1 (ko) | 키워드를 이용한 표제어 선정 장치 및 방법 | |
JP5691558B2 (ja) | 例文検索装置、処理方法およびプログラム | |
JP4308543B2 (ja) | キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム | |
JP2005190185A (ja) | 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体 | |
Alam et al. | Improving accessibility of archived raster dictionaries of complex script languages | |
JP2000259627A (ja) | 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体 | |
JP2000322449A (ja) | 自然言語文関係判定装置、自然言語文検索装置、自然言語文生成装置およびこれらに用いる枠組み表現出力装置、ならびにそれらの方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130927 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140826 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20141125 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20141202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5788015 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |