JP2017004127A - テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 - Google Patents
テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 Download PDFInfo
- Publication number
- JP2017004127A JP2017004127A JP2015115285A JP2015115285A JP2017004127A JP 2017004127 A JP2017004127 A JP 2017004127A JP 2015115285 A JP2015115285 A JP 2015115285A JP 2015115285 A JP2015115285 A JP 2015115285A JP 2017004127 A JP2017004127 A JP 2017004127A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- words
- text
- word
- divided
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】テキストを適切な位置で効率的に分割する。
【解決手段】コンピュータは、複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索する(ステップ201)。そして、コンピュータは、第1の文字列と登録文字列とが対応する場合、第1の文字列のうち、登録文字列に対応付けられた区分単語数の単語を含む第2の文字列を、その区分単語数の単語に分割する(ステップ202)。
【選択図】図2
【解決手段】コンピュータは、複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索する(ステップ201)。そして、コンピュータは、第1の文字列と登録文字列とが対応する場合、第1の文字列のうち、登録文字列に対応付けられた区分単語数の単語を含む第2の文字列を、その区分単語数の単語に分割する(ステップ202)。
【選択図】図2
Description
本発明は、テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法に関する。
近年、インターネット上の情報が飛躍的に増大しており、ビッグデータを用いたビジネスが増加しているため、ビッグデータを効率的に処理することが望まれている。日本語、中国語、又は韓国語の文書のように、単語と単語がスペース等の区切り文字で区切られていない表記の文書の場合、単語の出現頻度を計算するために形態素解析が行われる。
形態素解析は、テキストを形態素に分割し、各形態素に対して品詞情報を付与する処理である。形態素解析により得られる形態素は、単語として扱われることもある。このような形態素解析を行うことで、文書中の単語間の関係及び単語の品詞が決定され、文書中のテキストを単語に分割することができる。しかし、形態素解析は処理負荷が大きいため、大量のテキストを処理するには長い時間がかかる。
文を2以上の単語に高速に分割する単語分割装置も知られている(例えば、特許文献1を参照)。この単語分割装置は、1以上の単語と、単語と当該単語を分割した結果である2以上の分割単語の組である1以上の分割情報とを格納し得る単語分割用辞書から、受け付けられた文の先頭である文のポインタから最大長の文字列に一致する単語を取得する。そして、単語分割装置は、取得した単語に対応する2以上の分割単語を有する場合は、一致する単語に代えて2以上の分割単語を取得する分割単語取得処理を行う。単語分割装置は、文のポインタを一致する単語の次の文字に移動した後、分割単語取得処理を文の最後の文字を含む単語まで行い、文を分割して得られる2以上の単語の集合である第一分割結果を取得する。
形態素解析を正確かつ迅速に行うことのできる形態素解析システムも知られている(例えば、特許文献2を参照)。この形態素解析システムの漢字文字列形態素N文字登録辞書には、形態素が、他の任意の文字列を後続して結合するとその形態素の文字列中で区切られる2つ以上の形態素となるものであれば、その形態素に関連づけてその区切れ位置の情報が併せて記録される。漢字文字列形態素解析プログラムは、最長一致法にて第1形態素候補を取得して、それに区切位置情報が記録されていればその位置から再び最長一致法によって第2形態素候補の取得を試みる。ひらがな形態素接合リスト辞書には、複数のひらがな形態素を文法的な接合の正しさを考慮して接合させたものがあらかじめ記録される。ひらがな文字列形態素解析プログラムは、ひらがな形態素接合リスト辞書と文字列データとの照合処理により形態素を取得する。
上述した従来の単語分割装置又は形態素解析システムでは、テキストの一部分のみの情報に基づいて分割位置が決定されるため、必ずしも適切な位置でテキストが分割されるとは限らない。
なお、かかる問題は、単語の出現頻度を計算するためにテキストを分割する場合に限らず、他のテキスト解析のためにテキストを分割する場合においても生ずるものである。
1つの側面において、本発明は、テキストを適切な位置で効率的に分割することを目的とする。
1つの案では、テキスト分割プログラムは、以下の処理をコンピュータに実行させる。
(1)コンピュータは、複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索する。
(2)コンピュータは、第1の文字列と登録文字列とが対応する場合、第1の文字列のうち、登録文字列に対応付けられた区分単語数の単語を含む第2の文字列を、その区分単語数の単語に分割する。
(1)コンピュータは、複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索する。
(2)コンピュータは、第1の文字列と登録文字列とが対応する場合、第1の文字列のうち、登録文字列に対応付けられた区分単語数の単語を含む第2の文字列を、その区分単語数の単語に分割する。
実施形態によれば、テキストを適切な位置で効率的に分割することができる。
以下、図面を参照しながら、実施形態を詳細に説明する。
例えば、特許文献1の単語分割装置を用いて、「そうはいってもっと進んでください」というテキストを分割する場合、単語分割用辞書の最長一致検索によりテキストが分割される。このため、正しい分割結果は「そう/はいって/もっと/進んで/ください」であるが、「そう/は/いっても/っと進んでください」のような、意図しない分割結果が得られることがある。
例えば、特許文献1の単語分割装置を用いて、「そうはいってもっと進んでください」というテキストを分割する場合、単語分割用辞書の最長一致検索によりテキストが分割される。このため、正しい分割結果は「そう/はいって/もっと/進んで/ください」であるが、「そう/は/いっても/っと進んでください」のような、意図しない分割結果が得られることがある。
この原因は、ある単語の後に続く単語に応じて分割位置が異なる場合があるにもかかわらず、単語よりも広い範囲の文脈を検出することなく、単純に最長一致検索で分割位置を決定している点にあると考えられる。
また、特許文献2の形態素解析システムを用いて、「自然言語処理技術」という複合語のテキストを分割する場合、N文字後退した位置から再び最長一致検索が行われ、第2形態素候補の単語が存在した場合、その区切れ位置が採用される。
このため、第1形態素候補に基づいて、「自然言語処理/技術」のような正しい分割結果が得られた場合であっても、第2形態素候補に基づいて、「自然/言語処理技術」のような誤った分割結果が採用されることがある。同様に、「原子力学会」の正しい分割結果は「原子力/学会」であるが、第2形態素候補に基づいて、「原子/力学/会」のような誤った分割結果が採用されることがある。
この原因は、複合語の文脈を検出することなく、局所的な情報に基づいて分割位置を決定している点にあると考えられる。
このように、テキストの一部分のみの情報に基づいて分割位置を決定しても、テキスト全体の文脈を検出していないので、誤った分割結果が生成されることがある。しかし、日本語等の文は無限に存在するため、必ずしもすべての文の分割結果が辞書に登録されるわけではない。
図1は、実施形態のテキスト分割装置の機能的構成例を示している。図1のテキスト分割装置101は、記憶部111及び分割部112を含む。
記憶部111は、複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報121を記憶する。分割部112は、記憶部111が記憶する文字列分割情報121を参照して、テキスト分割処理を行う。
図2は、図1のテキスト分割装置101が行うテキスト分割処理の例を示すフローチャートである。まず、分割部112は、文字列分割情報121から、テキストに含まれる第1の文字列を検索する(ステップ201)。そして、分割部112は、第1の文字列と登録文字列とが対応する場合、第1の文字列のうち、登録文字列に対応付けられた区分単語数の単語を含む第2の文字列を、その区分単語数の単語に分割する(ステップ202)。
このようなテキスト分割装置101によれば、テキストを適切な位置で効率的に分割することができる。
テキスト分割装置101は、大量のテキストを解析するテキスト解析に適用することができる。例えば、テキスト内における各単語の出現頻度を計算する統計処理に対して、テキスト分割装置101を適用してもよい。
図3は、日本語テキストに対する文字列分割情報121の例を示している。図3の文字列分割情報121は、単語単位のnグラム(n−gram)が文字列として登録されたnグラムテーブルであり、テキスト分割処理のための辞書に対応する。このnグラムテーブルの各エントリは、エントリの識別情報(ID)と、nグラムと、区分単語数と、文字列長と、文字種別と、助詞及び助動詞の位置とを含む。
nグラムは、n個の単語を含む文字列を表し、区分単語数は、n個の単語のうち分割結果として採用される単語の個数を表す。区分単語数は1以上n以下の整数であるが、nよりも小さい区分単語数を用いることが好ましい。文字列長は、nグラムに含まれる文字の個数を表し、文字種別は、nグラムに含まれる各単語の文字の種別を表す。文字種別“1”は、単語に含まれる文字がすべてひらがな又はカタカナであることを表し、文字種別“0”は、単語がそれ以外の文字を含むことを表す。助詞及び助動詞の位置は、nグラムに含まれる助詞及び助動詞の出現位置を表す。
例えば、ID“1”の文字列「そうはいっても」は、「そう」、「は」、「いって」、及び「も」からなる4−gramであり、区分単語数は1であり、文字列長は7である。文字種別“1111”は、4個の単語の各々がひらがな又はカタカナであることを表し、助詞及び助動詞の位置“2,4”は、4−gramの先頭から2番目の単語と4番目の単語とが、助詞又は助動詞であることを表す。
ID“5”の文字列「そうはいはいと人」は、「そう」、「はいはい」、「と」、及び「人」からなる4−gramであり、区分単語数は3であり、文字列長は9である。文字種別“1110”は、4個の単語のうち1番目〜3番目の単語がひらがな又はカタカナであり、4番目の単語がそれ以外の文字を含むことを表し、助詞及び助動詞の位置“3”は、3番目の単語が助詞又は助動詞であることを表す。
また、ID“3”等のエントリにおける助詞及び助動詞の位置“−1”は、nグラムに助詞又は助動詞が含まれていないことを表す。
図3には、2−gram〜4−gramの特定の文字列のエントリのみが示されているが、このnグラムテーブルには、不図示の2−gram〜4−gramの他の文字列のエントリと5−gram〜10−gramのエントリも含まれている。さらに、nが11以上であるnグラムを登録してもよい。nを大きくして比較的長い文字列をnグラムテーブルに登録することで、単語よりも広い範囲の文脈を検出することが可能になる。
例えば、複数の文書のテキストを高精度の形態素解析処理により解析することで、自動的にnグラムテーブルを生成することができる。同じ文字列であっても、使用される分野に応じて異なるnグラムとして登録してもよい。例えば、文字列「原子力学」は、「原子力−学」及び「原子−力学」の2個の2−gramとして登録することができる。各エントリの区分単語数を決定する方法については後述する。
図4は、図2のテキスト分割処理の具体例を示すフローチャートである。まず、分割部112は、分割対象のテキストの先頭位置を開始位置として、文字列分割情報121に登録された文字列の中から、テキスト内の開始位置から始まる文字列を最長一致検索により検索する(ステップ401)。そして、分割部112は、開始位置から始まる文字列と、文字列分割情報121のいずれかのエントリの文字列とが一致するか否かをチェックする(ステップ402)。
開始位置から始まる文字列がいずれのエントリの文字列とも一致しない場合(ステップ402,NO)、分割部112は、開始位置を1文字だけ後方へシフトして(ステップ406)、ステップ401以降の処理を繰り返す。
開始位置から始まる文字列がいずれかのエントリの文字列と一致した場合(ステップ402,YES)、分割部112は、一致した文字列のうちで最長の文字列に対応するエントリの区分単語数を参照する(ステップ403)。そして、分割部112は、テキスト内の開始位置からその区分単語数に対応する部分の文字列を、そのエントリに登録された単語に分割する。
次に、分割部112は、区分単語数に対応する部分の文字列の文字数だけ、開始位置を後方へシフトして(ステップ404)、一致した最長の文字列の末尾がテキストの末尾であるか否かをチェックする(ステップ405)。最長の文字列の末尾がテキストの末尾ではない場合(ステップ405,NO)、分割部112は、ステップ401以降の処理を繰り返す。
最長の文字列の末尾がテキストの末尾である場合(ステップ405,YES)、分割部112は、開始位置以降の文字列を、最長の文字列に対応するエントリに登録された単語に分割して、処理を終了する。
例えば、分割対象のテキストが「そうはいってもっと進んでください」である場合、先頭の2文字「そう」を検索対象として、図3のnグラムテーブルを前方一致検索により検索すると、ID“1”〜ID“9”の9個のエントリが抽出される。
これらのエントリのうち、最も長い文字列長“12”に対応するものは、ID“3”及びID“4”のエントリである。しかし、ID“3”の文字列「そうはいってもっとむこう」とID“4”の文字列「そうはいってずっとむこう」のいずれも、分割対象のテキストとは一致しない。
2番目に長い文字列長“9”に対応するエントリは、ID“5”、ID“6”、及びID“8”のエントリである。このうち、ID“8”の文字列「そうはいってもっと」のみが分割対象のテキストと一致するため、このエントリに基づいて分割対象のテキストが分割される。この場合、ID“8”の区分単語数は“1”であるため、文字列に含まれる3個の単語のうち1番目の「そう」と2番目の「はいって」との間の位置で分割対象のテキストが分割され、開始位置がその分割位置にシフトする。
次に、残りの「はいってもっと進んでください」の先頭の2文字「はい」を検索対象として、nグラムテーブルを前方一致検索により検索すると、ID“10”〜ID“19”の10個のエントリが抽出される。
これらのエントリのうち、最も長い文字列長“11”に対応するものは、ID“11”及びID“12”のエントリである。しかし、ID“11”の文字列「はいってもっとむこうに」とID“12”の文字列「はいってずっとむこうに」のいずれも、残りのテキストとは一致しない。
2番目に長い文字列長“10”に対応するエントリは、ID“16”及びID“17”のエントリである。しかし、ID“16”の文字列「はいってもっとむこう」とID“17”の文字列「はいってずっとむこう」のいずれも、残りのテキストとは一致しない。
3番目に長い文字列長“8”に対応するエントリは、ID“14”及びID“19”のエントリである。しかし、ID“14”の文字列「はいはいと簡単に」とID“19”の文字列「はいってください」のいずれも、残りのテキストとは一致しない。
4番目に長い文字列長“7”に対応するエントリは、ID“10”、ID“13”、及びID“18”のエントリである。このうち、ID“18”の文字列「はいってもっと」のみが残りのテキストと一致するため、このエントリに基づいて残りのテキストが分割される。この場合、ID“18”の区分単語数は“1”であるため、文字列に含まれる2個の単語のうち1番目の「はいって」と2番目の「もっと」との間の位置で残りのテキストが分割され、開始位置がその分割位置にシフトする。
次に、残りの「もっと進んでください」の先頭の2文字「もっ」を検索対象として、nグラムテーブルを前方一致検索により検索すると、ID“20”及びID“21”の2個のエントリが抽出される。
これらのエントリの文字列長はともに“6”であるが、ID“20”の文字列「もっと進んで」のみが残りのテキストと一致するため、このエントリに基づいて残りのテキストが分割される。この場合、ID“20”の区分単語数は“1”であるため、文字列に含まれる2個の単語のうち1番目の「もっと」と2番目の「進んで」との間の位置で残りのテキストが分割され、開始位置がその分割位置にシフトする。その後、残りの「進んでください」に対して同様の分割処理が繰り返される。
このようなテキスト分割処理によれば、最長一致検索により一致した文字列の全部ではなく一部分のみが分割され、残りの部分を次の最長一致検索の検索対象に含めることができる。このとき、より長い文字列を文字列分割情報121に登録することで、広い範囲の文脈に基づいて複数の登録文字列を比較しながら、徐々に分割結果を確定させていくことが可能になる。
例えば、複数の登録文字列の間で共通する部分のように、文脈に基づいて確からしいと判定される部分のみに対して分割結果を確定させ、それ以外の部分に対しては分割結果を確定させないことも可能である。「そうはいってもっと進んでください」の例では、先頭の「そう」が、確からしいと判定される部分に対応し、「はいって」以降の部分が、それ以外の部分に対応する。
図4のテキスト分割処理によれば、文字列分割情報121内に単語として存在しない未知語を含む文字列を複数の単語に分割することも可能である。
例えば、「XY自動車交通(株)の今期の業績は・・・」というテキストが分割対象であり、「XY」が未知語である場合、まず、先頭の「X」が開始位置に設定される。しかし、「X」から始まる文字列が文字列分割情報121のいずれのエントリとも一致しないため、次に、開始位置が1文字だけシフトし、「Y」が開始位置に設定される。しかし、「Y」から始まる文字列が文字列分割情報121のいずれのエントリとも一致しないため、次に、開始位置が1文字だけシフトし、「自」が開始位置に設定される。
ここで、「自動車−交通−(株)−の」という4−gramが文字列分割情報121に登録されており、その区分単語数が“3”であるとすると、文字列「自動車交通(株)」が「自動車」、「交通」、及び「(株)」の3個の単語に分割される。さらに、「自動車交通(株)」よりも前の文字列「XY」が単語として採用される。これにより、「XY自動車交通(株)」を「XY/自動車/交通/(株)」のように4個の単語に分割することができる。
また、文字列分割情報121内に単語として存在するが、その単語を含む文字列が登録されていない場合であっても、そのような未登録文字列を複数の単語に分割することが可能である。
例えば、「そんなスリッパの・・・」というテキストが分割対象であり、「そんなスリッパ」が未登録文字列である場合、まず、先頭の「そ」が開始位置に設定される。しかし、「そ」から始まる文字列が文字列分割情報121のいずれのエントリとも一致しないため、次に、開始位置が1文字だけシフトし、「ん」が開始位置に設定される。
しかし、「ん」から始まる文字列が文字列分割情報121のいずれのエントリとも一致しないため、次に、開始位置が1文字だけシフトし、「な」が開始位置に設定される。しかし、「な」から始まる文字列が文字列分割情報121のいずれのエントリとも一致しないため、次に、開始位置が1文字だけシフトし、「ス」が開始位置に設定される。
ここで、「スリッパ−の」という2−gramが文字列分割情報121に登録されており、その区分単語数が“1”であるとすると、文字列「スリッパの」が「スリッパ」及び「の」の2個の単語に分割される。さらに、「スリッパの」よりも前の文字列「そんな」が単語として採用される。これにより、「そんなスリッパ」を「そんな/スリッパ」のように2個の単語に分割することができる。
このように、図4のテキスト分割処理によれば、文字列分割情報121に登録されていない文字列であっても、適切に分割することが可能である。したがって、あらゆる単語を含む多数の文字列を文字列分割情報121に登録する必要はなく、統計的に出現頻度が大きな文字列のみを登録すれば十分である。これにより、文字列分割情報121を記憶するための記憶領域の増大を抑止することができる。
図5は、区分単語数登録処理を行うテキスト分割装置の機能的構成例を示している。図5のテキスト分割装置101は、図1のテキスト分割装置101に区分単語数決定部501を追加した構成を有する。区分単語数決定部501は、文字列分割情報121の各エントリの文字列の属性に基づいて区分単語数を決定し、決定した区分単語数を文字列分割情報121に登録する。
図6は、区分単語数決定部501が行う区分単語数登録処理の例を示すフローチャートである。まず、区分単語数決定部501は、文字列分割情報121の1つのエントリに登録された文字列を処理対象として、その文字列の属性を抽出し(ステップ601)、抽出した属性に基づいて、処理対象の文字列に対応する区分単語数を決定する(ステップ602)。
次に、区分単語数決定部501は、他のエントリに処理対象の文字列と同じ文字列が存在するか否かをチェックする(ステップ603)。同じ文字列が存在する場合(ステップ603,YES)、区分単語数決定部501は、決定した区分単語数を、複数の同じ文字列に共通する単語の個数に変更する(ステップ604)。そして、区分単語数決定部501は、変更後の区分単語数を処理対象の文字列のエントリに登録する(ステップ605)。
一方、同じ文字列が存在しない場合(ステップ603,NO)、区分単語数決定部501は、決定した区分単語数を処理対象の文字列のエントリに登録する(ステップ605)。
次に、区分単語数決定部501は、文字列分割情報121のすべてのエントリを処理したか否かをチェックする(ステップ606)。未処理のエントリが残っている場合(ステップ606,NO)、区分単語数決定部501は、次のエントリに登録された文字列を処理対象として、ステップ601以降の処理を繰り返す。そして、すべてのエントリを処理した場合(ステップ606,YES)、区分単語数決定部501は、処理を終了する。
区分単語数決定部501は、図4のテキスト分割処理の開始前に、図6の区分単語数登録処理を行ってもよく、テキスト分割処理と並行して区分単語数登録処理を行ってもよい。
図6のステップ601において抽出される処理対象の文字列の属性は、文字列の一部又は全部に含まれる文字の個数、文字列に含まれる単語の文字種別、又は文字列内における所定の品詞の位置のうち少なくとも1つを含むことができる。単語の文字種別は、例えば、ひらがな又はカタカナ、それ以外の文字等を表し、所定の品詞としては、例えば、助詞及び助動詞が用いられる。
文字種別がひらがな又はカタカナである単語を含む文字列は、分割位置が一意に決定されないことが多いため、そのような文字列の区分単語数は、ひらがな及びカタカナ以外の単語を含む文字列の区分単語数よりも小さく設定することが好ましい。
また、助詞又は助動詞を含む文字列も、分割位置が一意に決定されないことが多いため、そのような文字列の区分単語数は、助詞及び助動詞を含まない文字列の区分単語数よりも小さく設定することが好ましい。
ステップ602において、区分単語数決定部501は、例えば、以下の手順で処理対象の文字列の区分単語数zを決定することができる。
まず、区分単語数決定部501は、文字列の先頭からn番目の単語(最後の単語)が句読点(「。」又は「、」)である場合、z=nに設定し、n番目の単語が句読点ではない場合、z=n−1に設定する。
次に、区分単語数決定部501は、n番目の単語の文字種別と、(n−1)番目の単語の品詞とをチェックする。
(n−1)番目の単語が助詞又は助動詞である場合、その単語までの文字列が1つの文節(単語のまとまり)に対応し、(n−1)番目の単語とn番目の単語との間に文節の境界が存在する可能性がある。しかし、その次のn番目の単語がひらがな又はカタカナである場合は、必ずしも(n−1)番目の単語とn番目の単語との間に境界が存在するとは限らない。逆に、n番目の単語がひらがな及びカタカナ以外の文字である場合は、(n−1)番目の単語とn番目の単語との間に境界が存在する可能性が高いと言える。
そこで、n番目の単語の文字種別が“0”であり、(n−1)番目の単語が助詞又は助動詞である場合、区分単語数決定部501は、zを変更しない。
一方、n番目の単語の文字種別が“1”である場合、又は(n−1)番目の単語が助詞及び助動詞以外の品詞である場合、区分単語数決定部501は、以下の手順でzを減少させる。
まず、区分単語数決定部501は、文字列の先頭からz番目の単語までの範囲の文字の個数kを用いて、k<z*3であるか否かをチェックする。z=nの場合、kは、処理対象の文字列に含まれる文字の総数を表し、z=n−1の場合、kは、処理対象の文字列の1番目〜(n−1)番目の単語に含まれる文字の個数を表す。
文字列に含まれる文字の個数が少ない場合は、分割位置が一意に決定されないことが多いため、zを小さくすることが望ましい。そこで、k<z*3である場合、区分単語数決定部501は、z=z−1に設定する。
また、文字列に含まれる文字の個数が少なくない場合であっても、文字種別がひらがな又はカタカナである場合は、分割位置が一意に決定されないことが多い。そこで、k≧z*3であり、1番目〜(n−1)番目の単語の文字種別がすべて“1”である場合も、区分単語数決定部501は、z=z−1に設定する。
なお、区分単語数決定部501は、kをz*3と比較する代わりに、kを他の閾値と比較してもよく、z=z−1に設定する代わりに、zをより小さな値に設定してもよい。
このように、文字列分割情報121に登録された文字列の属性に基づいて区分単語数を決定することで、各文字列の文脈に応じて分割結果を確定させる部分が設定される。これにより、処理速度を低下させることなく、高い精度でテキストを分割することができる。
また、ステップ604において、区分単語数決定部501は、複数のエントリに登録された同じ文字列であって、分割位置が異なる文字列同士を先頭から比較し、共通する単語の個数をzに設定する。ただし、共通する単語の個数がステップ602で決定した区分単語数以上である場合、区分単語数決定部501は、決定した区分単語数を変更しなくてもよい。
分割位置が異なる同じ文字列が登録されている場合、それらの文字列の分割結果に共通する単語の個数を区分単語数に設定することで、残りの単語からなる文字列を誤った位置で分割するリスクを低減することができる。
例えば、図3のID“1”の「そうはいっても」が処理対象の文字列である場合、n=4であり、4番目の単語「も」が句読点ではないため、z=n−1=3に設定される。次に、4番目の単語「も」の文字種別が“1”であるため、k<z*3であるか否かがチェックされる。この場合、k=2+1+3=6であるため、k<z*3=9となり、z=z−1=2に決定される(ステップ602)。
次に、ID“9”の「そうはいっても」が同じ文字列であり、ID“1”の「そう−は−いって−も」とID“9”の「そう−はいって−も」に共通する単語は「そう」のみであるため、z=1に変更される(ステップ604)。
ID“2”の「そうはいってた」が処理対象の文字列である場合、同様にして、z=2に決定される(ステップ602)。さらに、他のエントリに「そう−はいって−た」という3−gramが登録されていたと仮定すると、z=1に変更される(ステップ604)。
ID“3”の「そうはいってもっとむこう」が処理対象の文字列である場合、n=4であり、4番目の単語「むこう」が句読点ではないため、z=n−1=3に設定される。次に、4番目の単語「むこう」の文字種別が“1”であるため、k<z*3であるか否かがチェックされる。この場合、k=2+4+3=9であるため、k=z*3となるが、1番目の単語「そう」、2番目の単語「はいって」、及び3番目の単語「もっと」の文字種別がすべて“1”であるため、z=z−1=2に決定される(ステップ602)。他のエントリには「そうはいってもっとむこう」と同じ文字列が存在しないため、z=2に確定する。
ID“5”の「そうはいはいと人」が処理対象の文字列である場合、n=4であり、4番目の単語「人」が句読点ではないため、z=n−1=3に設定される。次に、4番目の単語「人」の文字種別が“0”であり、3番目の単語「と」が助詞であるため、z=3に決定される(ステップ602)。他のエントリには「そうはいはいと人」と同じ文字列が存在しないため、z=3に確定する。
図1及び図5のテキスト分割装置101の構成は一例に過ぎず、テキスト分割装置101の用途や条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図5のテキスト分割装置101において、テキスト分割処理が外部の装置により行われる場合は、分割部112を省略することができる。
図2、図4、及び図6のフローチャートは一例に過ぎず、テキスト分割装置101の構成や条件に応じて一部の処理を省略又は変更してもよい。例えば、図4のテキスト分割処理のステップ401において、必ずしも最長一致検索を行う必要はなく、前方一致検索により一致した登録文字列のうちいずれか1つの登録文字列を採用してもよい。
図6の区分単語数登録処理のステップ601及びステップ602において、区分単語数決定部501は、文字列に含まれる単語の文字種別として、ひらがな又はカタカナ以外に、漢字、アルファベット、数字、記号等の種別を用いてもよい。また、区分単語数決定部501は、文字列内における所定の品詞として、助詞及び助動詞以外に、名詞、動詞、形容詞、副詞等の品詞を用いてもよい。区分単語数決定部501は、文字列の一部又は全部に含まれる文字の個数、文字列に含まれる単語の文字種別、又は文字列内における所定の品詞の位置のうち1つの属性のみに基づいて、区分単語数を決定してもよい。
図6の区分単語数登録処理において、文字列の属性に基づいて区分単語数を決定しない場合は、ステップ601及びステップ602の処理を省略することができる。複数の同じ文字列に共通する単語の個数を区分単語数として登録しない場合は、ステップ603及びステップ604の処理を省略することができる。
区分単語数決定部501は、図6の区分単語数登録処理を行う代わりに、ユーザ又はオペレータから指示された区分単語数を文字列分割情報121に登録してもよい。
図3の文字列分割情報121は一例に過ぎず、テキスト分割装置101の構成や条件に応じて別の文字列分割情報121を用いてもよい。例えば、テキスト分割装置101が区分単語数登録処理を行わない場合は、図3の文字列長と文字種別と助詞及び助動詞の位置を省略することができる。文字列分割情報121に登録される文字列は、必ずしもnグラムの形式でなくてもよく、単語間の境界位置を示す別の形式であってもよい。日本語以外の言語のテキストを分割する場合は、その言語の文字列が文字列分割情報121に登録される。
図1及び図5のテキスト分割装置101は、例えば、図7に示すような情報処理装置(コンピュータ)を用いて実現可能である。
図7の情報処理装置は、Central Processing Unit(CPU)701、メモリ702、入力装置703、出力装置704、補助記憶装置705、媒体駆動装置706、及びネットワーク接続装置707を含む。これらの構成要素はバス708により互いに接続されている。
メモリ702は、例えば、Read Only Memory(ROM)、Random Access Memory(RAM)、フラッシュメモリ等の半導体メモリである。メモリ702は、テキスト分割処理又は区分単語数登録処理のためのプログラム及びデータを格納する。メモリ702は、図1及び図5の記憶部111として用いることができる。
CPU701(プロセッサ)は、例えば、メモリ702を利用してプログラムを実行することにより、図1及び図5の分割部112及び区分単語数決定部501として動作する。
入力装置703は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示や情報の入力に用いられる。出力装置704は、例えば、表示装置、プリンタ、スピーカ等であり、ユーザ又はオペレータへの問い合わせや処理結果の出力に用いられる。処理結果は、テキストの分割結果であってもよい。
補助記憶装置705は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置705は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置705にプログラム及びデータを格納しておき、それらをメモリ702にロードして使用することができる。補助記憶装置705は、図1及び図5の記憶部111として用いることができる。
媒体駆動装置706は、可搬型記録媒体709を駆動し、その記録内容にアクセスする。可搬型記録媒体709は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体709は、Compact Disk Read Only Memory(CD−ROM)、Digital Versatile Disk(DVD)、Universal Serial Bus(USB)メモリ等であってもよい。ユーザ又はオペレータは、この可搬型記録媒体709にプログラム及びデータを格納しておき、それらをメモリ702にロードして使用することができる。
このように、プログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ702、補助記憶装置705、及び可搬型記録媒体709のような、物理的な(非一時的な)記録媒体である。
ネットワーク接続装置707は、Local Area Network(LAN)、インターネット等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェースである。情報処理装置は、ネットワーク接続装置707を介して外部の装置からプログラム及びデータを受信し、それらをメモリ702にロードして使用することができる。
情報処理装置は、ネットワーク接続装置707を介して、ユーザ端末から指示や情報を受信し、テキスト分割処理又は区分単語数登録処理を行って、処理結果をユーザ端末へ送信することもできる。
なお、情報処理装置が図7のすべての構成要素を含む必要はなく、用途や条件に応じて一部の構成要素を省略することも可能である。例えば、ユーザ又はオペレータからの指示や情報の入力を行わない場合は、入力装置703を省略してもよく、ユーザ又はオペレータへの問い合わせや処理結果の出力を行わない場合は、出力装置704を省略してもよい。情報処理装置が可搬型記録媒体709又は通信ネットワークにアクセスしない場合は、媒体駆動装置706又はネットワーク接続装置707を省略してもよい。
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
図1乃至図7を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索し、
前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の区分単語を含む第2の文字列を、前記区分単語数の前記区分単語に分割する、
処理をコンピュータに実行させるテキスト分割プログラム。
(付記2)
前記区分単語数は、前記登録文字列の属性に基づいて決定されることを特徴とする付記1記載のテキスト分割プログラム。
(付記3)
前記登録文字列の属性は、前記登録文字列の一部又は全部に含まれる文字の個数、前記登録文字列に含まれる前記複数の単語の文字種別、又は前記登録文字列内における所定の品詞の位置のうち少なくとも1つを含むことを特徴とする付記2記載のテキスト分割プログラム。
(付記4)
前記文字列分割情報は、前記登録文字列と同じ文字列であって前記登録文字列とは異なる分割位置で複数の単語に分割された文字列を含み、前記区分単語数は、前記登録文字列と、前記異なる分割位置で分割された前記文字列とに共通する単語の個数に基づいて決定されることを特徴とする付記1乃至3のいずれか1項に記載のテキスト分割プログラム。
(付記5)
前記コンピュータは、最長一致検索により前記文字列分割情報から前記第1の文字列を検索することを特徴とする付記1乃至4のいずれか1項に記載のテキスト分割プログラム。
(付記6)
複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報を記憶する記憶部と、
前記文字列分割情報からテキストに含まれる第1の文字列を検索し、前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の単語を含む第2の文字列を、前記区分単語数の前記単語に分割する分割部と、
を備えることを特徴とするテキスト分割装置。
(付記7)
前記区分単語数は、前記登録文字列の属性に基づいて決定されることを特徴とする付記6記載のテキスト分割装置。
(付記8)
前記登録文字列の属性は、前記登録文字列の一部又は全部に含まれる文字の個数、前記登録文字列に含まれる前記複数の単語の文字種別、又は前記登録文字列内における所定の品詞の位置のうち少なくとも1つを含むことを特徴とする付記7記載のテキスト分割装置。
(付記9)
前記文字列分割情報は、前記登録文字列と同じ文字列であって前記登録文字列とは異なる分割位置で複数の単語に分割された文字列を含み、前記区分単語数は、前記登録文字列と、前記異なる分割位置で分割された前記文字列とに共通する単語の個数に基づいて決定されることを特徴とする付記6乃至8のいずれか1項に記載のテキスト分割装置。
(付記10)
前記分割部は、最長一致検索により前記文字列分割情報から前記第1の文字列を検索することを特徴とする付記6乃至9のいずれか1項に記載のテキスト分割装置。
(付記11)
コンピュータが、
複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索し、
前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の単語を含む第2の文字列を、前記区分単語数の前記単語に分割する、
ことを特徴とするテキスト分割方法。
(付記12)
前記区分単語数は、前記登録文字列の属性に基づいて決定されることを特徴とする付記11記載のテキスト分割方法。
(付記13)
前記登録文字列の属性は、前記登録文字列の一部又は全部に含まれる文字の個数、前記登録文字列に含まれる前記複数の単語の文字種別、又は前記登録文字列内における所定の品詞の位置のうち少なくとも1つを含むことを特徴とする付記12記載のテキスト分割方法。
(付記14)
前記文字列分割情報は、前記登録文字列と同じ文字列であって前記登録文字列とは異なる分割位置で複数の単語に分割された文字列を含み、前記区分単語数は、前記登録文字列と、前記異なる分割位置で分割された前記文字列とに共通する単語の個数に基づいて決定されることを特徴とする付記11乃至13のいずれか1項に記載のテキスト分割方法。
(付記15)
前記コンピュータは、最長一致検索により前記文字列分割情報から前記第1の文字列を検索することを特徴とする付記11乃至14のいずれか1項に記載のテキスト分割方法。
(付記1)
複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索し、
前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の区分単語を含む第2の文字列を、前記区分単語数の前記区分単語に分割する、
処理をコンピュータに実行させるテキスト分割プログラム。
(付記2)
前記区分単語数は、前記登録文字列の属性に基づいて決定されることを特徴とする付記1記載のテキスト分割プログラム。
(付記3)
前記登録文字列の属性は、前記登録文字列の一部又は全部に含まれる文字の個数、前記登録文字列に含まれる前記複数の単語の文字種別、又は前記登録文字列内における所定の品詞の位置のうち少なくとも1つを含むことを特徴とする付記2記載のテキスト分割プログラム。
(付記4)
前記文字列分割情報は、前記登録文字列と同じ文字列であって前記登録文字列とは異なる分割位置で複数の単語に分割された文字列を含み、前記区分単語数は、前記登録文字列と、前記異なる分割位置で分割された前記文字列とに共通する単語の個数に基づいて決定されることを特徴とする付記1乃至3のいずれか1項に記載のテキスト分割プログラム。
(付記5)
前記コンピュータは、最長一致検索により前記文字列分割情報から前記第1の文字列を検索することを特徴とする付記1乃至4のいずれか1項に記載のテキスト分割プログラム。
(付記6)
複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報を記憶する記憶部と、
前記文字列分割情報からテキストに含まれる第1の文字列を検索し、前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の単語を含む第2の文字列を、前記区分単語数の前記単語に分割する分割部と、
を備えることを特徴とするテキスト分割装置。
(付記7)
前記区分単語数は、前記登録文字列の属性に基づいて決定されることを特徴とする付記6記載のテキスト分割装置。
(付記8)
前記登録文字列の属性は、前記登録文字列の一部又は全部に含まれる文字の個数、前記登録文字列に含まれる前記複数の単語の文字種別、又は前記登録文字列内における所定の品詞の位置のうち少なくとも1つを含むことを特徴とする付記7記載のテキスト分割装置。
(付記9)
前記文字列分割情報は、前記登録文字列と同じ文字列であって前記登録文字列とは異なる分割位置で複数の単語に分割された文字列を含み、前記区分単語数は、前記登録文字列と、前記異なる分割位置で分割された前記文字列とに共通する単語の個数に基づいて決定されることを特徴とする付記6乃至8のいずれか1項に記載のテキスト分割装置。
(付記10)
前記分割部は、最長一致検索により前記文字列分割情報から前記第1の文字列を検索することを特徴とする付記6乃至9のいずれか1項に記載のテキスト分割装置。
(付記11)
コンピュータが、
複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索し、
前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の単語を含む第2の文字列を、前記区分単語数の前記単語に分割する、
ことを特徴とするテキスト分割方法。
(付記12)
前記区分単語数は、前記登録文字列の属性に基づいて決定されることを特徴とする付記11記載のテキスト分割方法。
(付記13)
前記登録文字列の属性は、前記登録文字列の一部又は全部に含まれる文字の個数、前記登録文字列に含まれる前記複数の単語の文字種別、又は前記登録文字列内における所定の品詞の位置のうち少なくとも1つを含むことを特徴とする付記12記載のテキスト分割方法。
(付記14)
前記文字列分割情報は、前記登録文字列と同じ文字列であって前記登録文字列とは異なる分割位置で複数の単語に分割された文字列を含み、前記区分単語数は、前記登録文字列と、前記異なる分割位置で分割された前記文字列とに共通する単語の個数に基づいて決定されることを特徴とする付記11乃至13のいずれか1項に記載のテキスト分割方法。
(付記15)
前記コンピュータは、最長一致検索により前記文字列分割情報から前記第1の文字列を検索することを特徴とする付記11乃至14のいずれか1項に記載のテキスト分割方法。
101 テキスト分割装置
111 記憶部
112 分割部
121 文字列分割情報
501 区分単語数決定部
701 CPU
702 メモリ
703 入力装置
704 出力装置
705 補助記憶装置
706 媒体駆動装置
707 ネットワーク接続装置
708 バス
709 可搬型記録媒体
111 記憶部
112 分割部
121 文字列分割情報
501 区分単語数決定部
701 CPU
702 メモリ
703 入力装置
704 出力装置
705 補助記憶装置
706 媒体駆動装置
707 ネットワーク接続装置
708 バス
709 可搬型記録媒体
Claims (6)
- 複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索し、
前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の単語を含む第2の文字列を、前記区分単語数の前記単語に分割する、
処理をコンピュータに実行させるテキスト分割プログラム。 - 前記区分単語数は、前記登録文字列の属性に基づいて決定されることを特徴とする請求項1記載のテキスト分割プログラム。
- 前記登録文字列の属性は、前記登録文字列の一部又は全部に含まれる文字の個数、前記登録文字列に含まれる前記複数の単語の文字種別、又は前記登録文字列内における所定の品詞の位置のうち少なくとも1つを含むことを特徴とする請求項2記載のテキスト分割プログラム。
- 前記文字列分割情報は、前記登録文字列と同じ文字列であって前記登録文字列とは異なる分割位置で複数の単語に分割された文字列を含み、前記区分単語数は、前記登録文字列と、前記異なる分割位置で分割された前記文字列とに共通する単語の個数に基づいて決定されることを特徴とする請求項1乃至3のいずれか1項に記載のテキスト分割プログラム。
- 複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報を記憶する記憶部と、
前記文字列分割情報からテキストに含まれる第1の文字列を検索し、前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の単語を含む第2の文字列を、前記区分単語数の前記単語に分割する分割部と、
を備えることを特徴とするテキスト分割装置。 - コンピュータが、
複数の単語に分割された登録文字列と区分単語数とを対応付けた文字列分割情報から、テキストに含まれる第1の文字列を検索し、
前記第1の文字列と前記登録文字列とが対応する場合、前記第1の文字列のうち、前記登録文字列に対応付けられた前記区分単語数の単語を含む第2の文字列を、前記区分単語数の前記単語に分割する、
ことを特徴とするテキスト分割方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015115285A JP2017004127A (ja) | 2015-06-05 | 2015-06-05 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
KR1020160023552A KR101841824B1 (ko) | 2015-06-05 | 2016-02-26 | 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법 |
CN201610111581.5A CN106250362A (zh) | 2015-06-05 | 2016-02-29 | 文本分割装置以及文本分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015115285A JP2017004127A (ja) | 2015-06-05 | 2015-06-05 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017004127A true JP2017004127A (ja) | 2017-01-05 |
Family
ID=57575934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015115285A Pending JP2017004127A (ja) | 2015-06-05 | 2015-06-05 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2017004127A (ja) |
KR (1) | KR101841824B1 (ja) |
CN (1) | CN106250362A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274384A (zh) * | 2018-12-05 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 一种文本标注方法及其设备、计算机存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980961A (zh) * | 2017-03-02 | 2017-07-25 | 中科天地互联网科技(苏州)有限公司 | 一种简历筛选匹配方法及系统 |
CN107688594B (zh) | 2017-05-05 | 2019-07-16 | 平安科技(深圳)有限公司 | 基于社交信息的风险事件的识别系统及方法 |
CN108446702B (zh) * | 2018-03-14 | 2022-05-31 | 深圳怡化电脑股份有限公司 | 一种图像字符分割方法、装置、设备及存储介质 |
CN112183035B (zh) * | 2020-11-06 | 2023-11-21 | 上海恒生聚源数据服务有限公司 | 一种文本标注方法、装置、设备及可读存储介质 |
CN112445912B (zh) * | 2020-11-06 | 2022-06-07 | 苏州浪潮智能科技有限公司 | 一种故障日志分类方法、系统、设备以及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10247192A (ja) * | 1998-02-17 | 1998-09-14 | Toshiba Corp | かな漢字変換装置 |
JP4222811B2 (ja) * | 2002-10-30 | 2009-02-12 | 株式会社リコー | キーワード抽出装置並びにプログラムおよび記録媒体 |
JP2014056362A (ja) * | 2012-09-11 | 2014-03-27 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282842A (ja) * | 1998-03-30 | 1999-10-15 | Brother Ind Ltd | 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3636941B2 (ja) * | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
JP3908919B2 (ja) | 2000-05-10 | 2007-04-25 | 株式会社アルカディア | 形態素解析システムと形態素解析方法 |
CN1889072A (zh) * | 2005-06-29 | 2007-01-03 | 香港中文大学 | 语言转换系统及方法 |
CN101794307A (zh) * | 2010-03-02 | 2010-08-04 | 光庭导航数据(武汉)有限公司 | 基于互联网分词思想的车载导航poi搜索引擎 |
US8880391B2 (en) | 2010-12-17 | 2014-11-04 | Rakuten, Inc. | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
CN102637204B (zh) * | 2012-03-16 | 2014-04-16 | 浙江大学城市学院 | 一种基于互索引结构的文本查询方法 |
JP5697648B2 (ja) | 2012-11-27 | 2015-04-08 | ヤフー株式会社 | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム |
CN103678282B (zh) * | 2014-01-07 | 2016-05-25 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
-
2015
- 2015-06-05 JP JP2015115285A patent/JP2017004127A/ja active Pending
-
2016
- 2016-02-26 KR KR1020160023552A patent/KR101841824B1/ko active IP Right Grant
- 2016-02-29 CN CN201610111581.5A patent/CN106250362A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10247192A (ja) * | 1998-02-17 | 1998-09-14 | Toshiba Corp | かな漢字変換装置 |
JP4222811B2 (ja) * | 2002-10-30 | 2009-02-12 | 株式会社リコー | キーワード抽出装置並びにプログラムおよび記録媒体 |
JP2014056362A (ja) * | 2012-09-11 | 2014-03-27 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274384A (zh) * | 2018-12-05 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 一种文本标注方法及其设备、计算机存储介质 |
CN111274384B (zh) * | 2018-12-05 | 2024-02-06 | 北京京东尚科信息技术有限公司 | 一种文本标注方法及其设备、计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106250362A (zh) | 2016-12-21 |
KR101841824B1 (ko) | 2018-03-23 |
KR20160143491A (ko) | 2016-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7478033B2 (en) | Systems and methods for translating Chinese pinyin to Chinese characters | |
KR101524740B1 (ko) | 입력 방법 편집기 | |
CN105917327B (zh) | 用于将文本输入到电子设备中的系统和方法 | |
AU2016269573B2 (en) | Input entity identification from natural language text information | |
KR101841824B1 (ko) | 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법 | |
US20100180199A1 (en) | Detecting name entities and new words | |
US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
US7917353B2 (en) | Hybrid text segmentation using N-grams and lexical information | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
JP2015038731A (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
US8510099B2 (en) | Method and system of selecting word sequence for text written in language without word boundary markers | |
Rehman et al. | Morpheme matching based text tokenization for a scarce resourced language | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
US20190286702A1 (en) | Display control apparatus, display control method, and computer-readable recording medium | |
WO2015075920A1 (ja) | 入力支援装置、入力支援方法及び記録媒体 | |
WO2021107006A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
Samsuri et al. | A comparison of distributed, pam, and trie data structure dictionaries in automatic spelling correction for indonesian formal text | |
Hsieh et al. | Ambiguity Resolution for Vt-N Structures in Chinese | |
Kovács | Efficient dictionary matching of character stream | |
JP2015130102A (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
JP2012159875A (ja) | 複合語生成装置、複合語生成方法、および複合語生成プログラム | |
JP2020052819A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2021018522A (ja) | 情報処理装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190924 |