JP6753401B2 - 符号化プログラム、符号化装置、及び符号化方法 - Google Patents

符号化プログラム、符号化装置、及び符号化方法 Download PDF

Info

Publication number
JP6753401B2
JP6753401B2 JP2017530480A JP2017530480A JP6753401B2 JP 6753401 B2 JP6753401 B2 JP 6753401B2 JP 2017530480 A JP2017530480 A JP 2017530480A JP 2017530480 A JP2017530480 A JP 2017530480A JP 6753401 B2 JP6753401 B2 JP 6753401B2
Authority
JP
Japan
Prior art keywords
character string
code
morpheme
coded
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017530480A
Other languages
English (en)
Other versions
JPWO2017017738A1 (ja
Inventor
文昭 中村
文昭 中村
片岡 正弘
正弘 片岡
将夫 出内
将夫 出内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2017017738A1 publication Critical patent/JPWO2017017738A1/ja
Application granted granted Critical
Publication of JP6753401B2 publication Critical patent/JP6753401B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、符号化プログラム、符号化装置、及び符号化方法に関する。
形態素解析は、テキストを形態素に分割し、各形態素に対して品詞情報を付与する処理である。形態素解析により得られる形態素は、単語として扱われることもある。
文書情報から抽出した形態素を符号化して格納する文書情報格納装置も知られている(例えば、特許文献1を参照)。この文書情報格納装置は、形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出し、抽出された形態素を符号化し、符号化された形態素に圧縮処理を施し、圧縮された符号化形態素を記憶部に格納する。
特開平11−85790号公報
上述した従来の符号化処理では、圧縮率を向上させるために2種類の辞書を用いて2段階の符号化処理が行われる場合、処理時間が長くなることがある。
1つの側面において、本発明は、符号化対象テキストに対する2段階の符号化処理を効率化することを目的とする。
1つの案では、符号化プログラムは、以下の処理をコンピュータに実行させる。
(1)コンピュータは、形態素の区分に用いられ、登録文字列と符号とを対応付けたレコードを複数有する文字列符号化情報に含まれる各レコードの登録文字列の先頭形態素を複数のレコード各々に含む形態素区分情報に基づいて、符号化対象テキストを解析する。
(2)コンピュータは、形態素区分情報に含まれる複数のレコードのうち、ある登録文字列に対応したレコードに含まれる、ある形態素の識別に応じて、符号化対象テキストに含まれるある形態素から始まる符号化対象文字列を文字列符号化情報において探索する。
(3)コンピュータは、符号化対象文字列がある登録文字列に対応する場合、符号化対象文字列を文字列符号化情報においてある登録文字列に対応付けられた符号に変換する。
(4)コンピュータは、変換後の符号を含む符号化テキストを出力する。
実施形態によれば、符号化対象テキストに対する2段階の符号化処理を効率化することができる。
形態素解析辞書を示す図である。 郵便番号辞書を示す図である。 形態素解析辞書及び郵便番号辞書を用いた符号化処理を示す図である。 郵便番号辞書の符号を追加した形態素解析辞書を示す図である。 符号化装置の機能的構成図である。 符号化処理のフローチャートである。 符号化装置の具体例を示す機能的構成図である。 切り替え情報を含む形態素解析辞書を示す図である。 住所辞書を示す図である。 切り替え情報設定処理のフローチャートである。 符号化処理の具体例を示すフローチャートである。 登録されていない文字列の探索を省略する符号化装置の機能的構成図である。 都道府県を複数のブロックに分割した住所辞書を示す図である。 形態素位置情報を示す図である。 登録されていない文字列の探索を省略する符号化処理のフローチャートである。 ブロック絞り込み処理のフローチャートである。 作業領域に格納されるフィルタ情報を示す図である。 エラーメッセージ辞書を示す図である。 情報処理装置の構成図である。
以下、図面を参照しながら、実施形態を詳細に説明する。
特許文献1の文書情報格納装置は、文書から形態素解析により抽出した1つ以上の形態素に対して、郵便番号辞書、同義語辞書等に登録された符号を割り当てることで、文書を符号化する。
図1は、形態素解析で用いられる形態素解析辞書の例を示している。図1の形態素解析辞書は、形態素、品詞、及び符号を含む。品詞は、各形態素の品詞を表し、符号は、各形態素に対応付けられた符号を表す。
図2は、郵便番号辞書の例を示している。図2の郵便番号辞書は、文字列及び符号を含む。文字列は、郵便番号が付与された住所を表す複数の形態素を含み、符号は、各文字列に対応付けられた郵便番号を表す。
図3は、図1の形態素解析辞書及び図2の郵便番号辞書を用いた符号化処理の例を示している。「神奈川県川崎市中原区上小田中に住む」という符号化対象テキスト301が入力された場合、まず、第1パスの形態素解析により符号化対象テキスト301が複数の形態素に分割される。そして、それぞれの形態素が形態素解析辞書に登録された符号に変換され、符号化テキスト302が生成される。例えば、符号化対象テキスト301の先頭の形態素「神奈川」は、16進数の符号0x0105に変換されている。
次に、第2パスの符号化により符号化テキスト302に含まれる文字列が郵便番号辞書に登録された文字列と比較され、2つの文字列が一致する場合、その文字列が郵便番号辞書に登録された符号に変換されて、符号化テキスト303が生成される。この例では、「神奈川県川崎市中原区上小田中」という文字列が符号211−0053に変換されている。このように、第2パスの符号化を行うことで、住所を表す複数の形態素が1つの符号に置き換えられるため、第1パスの符号化結果をさらに圧縮することができる。
第1パスの形態素解析では、品詞又は意味を持つ最小の単位である形態素を高速に抽出するために形態素解析辞書が採用される。形態素解析辞書では、1つの形態素に対して1つの符号が割り当てられる。一方、第2パスの符号化では、住所を表す文字列を高速に抽出するために郵便番号辞書が採用される。郵便番号辞書では、複数の形態素に対して1つの符号が割り当てられる。
このように、2つの辞書の間で符号が割り当てられる形態素の個数が異なるため、第1パス及び第2パスの2パス(2段階)に分けて符号化処理が行われる。2パスの符号化処理は、1パスの符号化処理よりも時間がかかるとともに、記憶領域等の計算資源をより多く使用する。
図4は、2パスの符号化処理と同等の処理を1パスで行うために、郵便番号辞書の符号を追加した形態素解析辞書の例を示している。図4の形態素解析辞書では、「神奈川県川崎市中原区上小田中」という文字列が形態素として登録されており、符号211−0053と対応付けられている。
しかし、テキスト中における住所を表す文字列の出現頻度は、その住所に含まれる個々の地名を表す形態素の出現頻度よりも低いため、形態素解析において統計的出現頻度の高い順に形態素を抽出する場合、住所を表す文字列が抽出される可能性は極めて低い。このため、図4の形態素解析辞書を用いたとしても、符号化対象テキスト301から符号化テキスト303が生成されることはなく、符号化テキスト302が生成される。結果的に、郵便番号辞書の符号が使用されず、圧縮率が向上しない。
また、第2パスの符号化において、住所を表す文字列に対して郵便番号辞書の符号を割り当てるために、形態素解析結果のすべての形態素に対して、完全最長一致法により郵便番号辞書が探索される。この場合、形態素の個数と同じ回数だけ、郵便番号辞書を参照して完全最長一致検索が行われるため、膨大な時間がかかる。
なお、かかる問題は、第2パスの符号化において郵便番号辞書を用いる場合に限らず、住所以外の他の文字列を登録した辞書を用いる場合においても生ずるものである。
図5は、実施形態の符号化装置の機能的構成例を示している。図5の符号化装置501は、記憶部511、符号化部512、及び出力部513を含む。
記憶部511は、形態素区分情報521及び文字列符号化情報522を記憶する。文字列符号化情報522は、複数のレコードを有し、各レコードには、登録文字列とその登録文字列に対応付けられた符号とが登録される。形態素区分情報521は、複数の形態素それぞれを含む複数のレコードを有し、形態素の区分に用いられる。形態素区分情報521には、文字列符号化情報522に含まれる各レコードの登録文字列の先頭形態素を含むレコードが含まれる。
符号化部512は、形態素区分情報521及び文字列符号化情報522に基づいて符号化対象テキストを符号化して、符号化テキストを生成し、出力部513は、符号化テキストを出力する。
図6は、図5の符号化装置501が行う符号化処理の例を示すフローチャートである。まず、符号化部512は、形態素区分情報521に基づいて符号化対象テキストを解析する(ステップ601)。そして、符号化部512は、形態素区分情報521に含まれる複数のレコードのうち、ある登録文字列に対応したレコードに含まれる、ある形態素の識別に応じて、符号化対象テキストに含まれるその形態素から始まる符号化対象文字列を文字列符号化情報内で探索する(ステップ602)。
符号化対象文字列がある登録文字列に対応する場合、符号化部512は、符号化対象文字列をその登録文字列に対応付けられた符号に変換する(ステップ603)。そして、出力部513は、変換後の符号を含む符号化テキストを出力する(ステップ604)。
このような符号化装置501によれば、符号化対象テキストに対する2段階の符号化処理を効率化することができる。
図7は、図5の符号化装置501の具体例を示している。図7の符号化部512は、解析部711、判定部712、変換部713、及び変換部714を含み、記憶部511は、形態素解析辞書721及び住所辞書722を記憶する。形態素解析辞書721及び住所辞書722は、図5の形態素区分情報521及び文字列符号化情報522にそれぞれ対応する。
図8は、形態素解析辞書721の例を示している。図8の形態素解析辞書721は、形態素、品詞、符号、及びフラグを含む。品詞は、各形態素の品詞を表し、符号は、各形態素に対応付けられた符号を表す。フラグは、形態素解析辞書721から住所辞書722への切り替えを行うか否かを示す切り替え情報であり、フラグが論理“1”のとき、切り替えを行うことを示し、フラグが論理“0”のとき、切り替えを行わないことを示す。
この例では、都道府県を表す文字列の先頭の形態素に対応するフラグが論理“1”に設定されている。例えば、「東京」の品詞は名詞であり、符号はC1であり、フラグは論理“1”である。一方、「川崎」の品詞は名詞であり、符号はC4であり、フラグは論理“0”である。
図9は、住所辞書722の例を示している。図9の住所辞書722は、文字列及び符号を含む。文字列は、住所を表す複数の形態素を含み、符号は、各文字列に対応付けられた符号を表す。符号は、郵便番号であってもよい。住所辞書722に登録された複数の文字列は、都道府県に対応する複数のブロックに分割されている。セパレータ901は、「東京都」のブロックの開始位置を表し、セパレータ902は、「神奈川県」のブロックの開始位置を表す。例えば、「東京都杉並区」の符号はD1であり、「神奈川県川崎市中原区」の符号はD3である。
解析部711は、形態素解析辞書721に切り替え情報を設定するとともに、形態素解析辞書721に基づいて符号化対象テキストに対する形態素解析を行い、符号化対象テキストを複数の形態素に分割する。判定部712は、解析部711が生成した形態素毎に住所辞書722への切り替えを行うか否かを判定する。変換部713は、形態素を形態素解析辞書721の符号に変換し、変換部714は、住所を表す複数の形態素を住所辞書722の符号に変換する。
図10は、解析部711が行う切り替え情報設定処理の例を示すフローチャートである。切り替え情報設定処理の開始時には、形態素解析辞書721内のすべての形態素のフラグが論理“0”に設定されている。まず、解析部711は、形態素解析辞書721に基づいて、住所辞書722に登録されている各文字列に対する形態素解析を行い、各文字列を複数の形態素に分割する(ステップ1001)。そして、解析部711は、形態素解析辞書721内の形態素の中から各文字列の先頭の形態素を選択し、選択した形態素のフラグを論理“1”に変更することで切り替え情報を設定する(ステップ1002)。
解析部711は、フラグの代わりに住所辞書722のブロックの開始位置を指すポインタを、切り替え情報として設定してもよい。この場合、「東京」の切り替え情報としては、セパレータ901の位置を指すポインタが設定され、「神奈川」の切り替え情報としては、セパレータ902の位置を指すポインタが設定される。
図11は、図7の符号化装置501が行う符号化処理の具体例を示すフローチャートである。まず、解析部711は、形態素解析辞書721に基づいて符号化対象テキストに対する形態素解析を行い(ステップ1101)、符号化対象テキストの先頭から順に形態素を抽出する(ステップ1102)。次に、判定部712は、形態素解析辞書721において、解析部711が抽出した形態素の切り替え情報が切り替えを示しているか否かを判定する(ステップ1103)。
切り替え情報が切り替えを示している場合(ステップ1103,YES)、判定部712は、符号化対象テキストに含まれる、抽出された形態素から始まる符号化対象文字列(形態素群)を、住所辞書722内で探索する(ステップ1104)。このとき、判定部712は、切り替え情報が示すブロック内で符号化対象文字列を探索し、符号化対象文字列がそのブロックに登録されているか否かをチェックする。判定部712は、例えば、完全最長一致検索により符号化対象文字列とブロック内の各登録文字列とを比較することで、符号化対象文字列がそのブロックに登録されているか否かをチェックすることができる。
符号化対象文字列が住所辞書722に登録されている場合(ステップ1104,YES)、変換部714は、その符号化対象文字列を住所辞書722に登録された符号に変換する(ステップ1105)。そして、判定部712は、符号化対象テキストの最後の形態素が符号に変換されたか否かをチェックする(ステップ1106)。最後の形態素が符号に変換されていない場合(ステップ1106,NO)、判定部712は、残りのテキストに対して、ステップ1101以降の処理を繰り返す。
一方、切り替え情報が切り替えを示していない場合(ステップ1103,NO)、変換部713は、解析部711が抽出した形態素を、形態素解析辞書721に登録された符号に変換する(ステップ1108)。そして、符号化部512は、ステップ1106以降の処理を行う。また、符号化対象文字列が住所辞書722に登録されていない場合(ステップ1104,NO)、符号化部512は、ステップ1108以降の処理を行う。
そして、最後の形態素が符号に変換された場合(ステップ1106,YES)、出力部513は、符号列を含む符号化テキストを出力する(ステップ1107)。
例えば、「神奈川県川崎市中原区に住む」という符号化対象テキストは、「神奈川/県/川崎/市/中原/区/に/住む」のように分割される。図8の形態素解析辞書721では、「神奈川」のフラグ“1”が切り替えを示しているため、「神奈川」から始まる文字列が図9の住所辞書722の「神奈川」のブロック内で探索され、「神奈川県川崎市中原区」という登録文字列が検出される。そこで、「神奈川/県/川崎/市/中原/区」が対応する符号D3に変換され、後続する「に」及び「住む」は形態素解析辞書721の符号に変換される。
形態素解析辞書721においてフラグの代わりにポインタが用いられる場合、形態素に対応するポインタが存在すれば、切り替え情報が切り替えを示していると判定され、ポインタが存在しなければ、切り替え情報が切り替えを示していないと判定される。
このような符号化処理によれば、住所辞書722の登録文字列が出現した時点で形態素解析辞書721から住所辞書722へ切り替えられるため、2パスの符号化処理を1パスで行うことが可能になる。これにより、2段階の符号化処理が高速化されるとともに、符号化処理に使用する記憶領域等の計算資源が削減される。
また、複数の登録文字列を先頭の形態素に対応する複数のブロックに分割して住所辞書722に登録することで、符号化対象文字列の先頭の形態素に対応するブロックのみを探索対象にすることが可能になる。これにより、探索対象ブロックが限定され、探索処理が効率化される。
しかし、図11の符号化処理では、切り替えを示す切り替え情報が検出される度に、符号化対象テキストに含まれる符号化対象文字列と、住所辞書722の対応するブロック内のすべての登録文字列とが、完全最長一致検索により比較される。このため、1ブロックに多数の登録文字列が含まれている場合、ステップ1104の探索処理に長い時間がかかる。
例えば、「神奈川に行く」という符号化対象テキストは、「神奈川/に/行く」のように分割される。図8の形態素解析辞書721では、「神奈川」のフラグ“1”が切り替えを示しているため、「神奈川」から始まる文字列が住所辞書722内で探索されるが、「に」は住所辞書722内のいずれの登録文字列にも含まれていない。このため、「神奈川」は形態素解析辞書721の符号に変換される。
このように、符号化対象テキスト内の形態素が住所辞書722の登録文字列の先頭の形態素と一致しているが、その形態素から始まる符号化対象文字列が住所辞書722内のいずれの登録文字列とも一致しない場合は、探索時間が無駄になってしまう。そこで、住所辞書722に登録されていない文字列の探索を省略して、符号化処理をさらに高速化することが望ましい。
図12は、住所辞書722に登録されていない文字列の探索を省略する符号化装置501の具体例を示している。図12の符号化装置501の構成は、図7の符号化装置501と同様である。記憶部511は、形態素解析辞書721及び住所辞書722に加えて形態素位置情報1211を記憶し、作業領域1212を含む。形態素位置情報1211は、住所辞書722の各登録文字列に含まれる各形態素について、登録文字列内における形態素の位置を示す情報である。作業領域1212は、形態素位置情報1211を用いて文字列が住所辞書722に登録されているか否かを判定するために用いられ、スタックであってもよい。
図13は、各都道府県の住所を複数のブロックに分割した住所辞書722の例を示している。「東京1」及び「東京2」は、「東京都」の住所のブロック名を表し、「神奈川1」〜「神奈川5」は、「神奈川県」の住所のブロック名を表す。
図14は、図13の住所辞書722に対する形態素位置情報1211の例を示している。図14の形態素位置情報1211は、形態素、オフセット、及び都道府県のブロックに対するフィルタ情報を含む。形態素は、住所辞書722の各登録文字列に含まれる各形態素を表し、オフセットは、登録文字列内における形態素の位置を表す。例えば、「東京」とオフセット“1”との組み合わせは、登録文字列の先頭の形態素が「東京」であることを表し、「多摩」とオフセット“3”との組み合わせは、登録文字列の3番目の形態素が「多摩」であることを表す。
フィルタ情報は、ブロックの個数だけのビット値を含むビット列で表される。あるブロックのビット値が論理“1”のとき、そのブロックに含まれるいずれかの登録文字列内において、オフセットが示す位置に形態素が存在することを示す。一方、あるブロックのビット値が論理“0”のとき、そのブロックに含まれるすべての登録文字列内において、オフセットが示す位置には形態素が存在しないことを表す。
例えば、「東京」とオフセット“1”との組み合わせに対応する「東京1」のビット値“1”は、「東京1」のブロックには、先頭の形態素が「東京」である登録文字列が存在することを示す。また、「東京」とオフセット“1”との組み合わせに対応する「神奈川1」のビット値“0”は、「神奈川1」のブロックには、先頭の形態素が「東京」である登録文字列が存在しないことを示す。
「多摩」とオフセット“3”との組み合わせに対応する「東京1」のビット値“1”は、「東京1」のブロックには、3番目の形態素が「多摩」である登録文字列が存在することを示す。また、「多摩」とオフセット“5”との組み合わせに対応する「神奈川3」のビット値“1”は、「神奈川3」のブロックには、5番目の形態素が「多摩」である登録文字列が存在することを示す。
このような形態素位置情報1211を用いることで、符号化対象文字列と登録文字列とを比較しなくても、その符号化対象文字列が住所辞書722に登録されているか否かを判定することが可能になる。さらに、符号化対象文字列が住所辞書722に登録されている場合、同じ先頭の形態素に対応する複数のブロックの中から、その符号化対象文字列を含むブロックを絞り込むことも可能になる。
図15は、図12の符号化装置501が行う符号化処理の具体例を示すフローチャートである。ステップ1501〜ステップ1503及びステップ1506〜ステップ1509の処理は、図11のステップ1101〜ステップ1103及びステップ1105〜ステップ1108の処理と同様である。
切り替え情報が切り替えを示している場合(ステップ1503,YES)、判定部712は、形態素位置情報1211を用いてブロックを絞り込むことで、住所辞書722内の探索対象ブロックを特定する(ステップ1504)。そして、判定部712は、符号化対象文字列を探索対象ブロック内で探索する(ステップ1505)。探索対象ブロックが存在する場合は、符号化対象文字列が探索対象ブロックに登録されているため(ステップ1505,YES)、符号化部512は、ステップ1506以降の処理を行う。
一方、探索対象ブロックが存在しない場合は、符号化対象文字列が住所辞書722に登録されていないため(ステップ1505,NO)、符号化部512は、ステップ1509以降の処理を行う。この場合、住所辞書722から符号化対象文字列を探索する処理は行われない。
図16は、図15のステップ1504で行われるブロック絞り込み処理の例を示すフローチャートである。まず、判定部712は、オフセットを表す変数Xに1を設定し(ステップ1601)、形態素を表す変数Wにステップ1502で抽出された形態素を設定する(ステップ1602)。
次に、判定部712は、形態素位置情報1211からX及びWに対応するフィルタ情報のビット列を検索し(ステップ1603)、対応するフィルタ情報が存在するか否かをチェックする(ステップ1604)。対応するフィルタ情報が存在する場合(ステップ1604,YES)、判定部712は、そのフィルタ情報を作業領域1212に追加し(ステップ1607)、Xを1だけインクリメントする(ステップ1608)。そして、判定部712は、符号化対象テキスト内の次の形態素をWに設定し(ステップ1602)、ステップ1603以降の処理を繰り返す。
一方、対応するフィルタ情報が存在しない場合(ステップ1604,NO)、判定部712は、作業領域1212に格納されたフィルタ情報を参照して、すべての形態素に対してビット値“1”を含むブロックを特定する(ステップ1605)。そして、判定部712は、特定したブロックの個数をチェックする(ステップ1606)。
特定したブロックの個数が1個である場合(ステップ1606,YES)、判定部712は、そのブロックを探索対象ブロックに決定する(ステップ1607)。一方、特定したブロックの個数が2個以上である場合(ステップ1606,NO)、判定部712は、符号化対象文字列が住所辞書722に登録されていないと判定して、処理を終了する。
図17は、作業領域1212に格納されるフィルタ情報の例を示している。例えば、「神奈川県川崎市多摩区登戸に住む」という符号化対象テキストは、「神奈川/県/川崎/市/多摩/区/登戸/に/住む」のように分割される。
図8の形態素解析辞書721では、先頭の「神奈川」のフラグ“1”が切り替えを示しているため、図14の形態素位置情報1211から、「神奈川」とオフセット“1”との組み合わせに対応するフィルタ情報が検索される。そして、対応するフィルタ情報のビット列は、「神奈川1」〜「神奈川5」のブロックにビット値“1”を含んでいるため、このビット列が作業領域1212に追加される。
同様にして、以下のような形態素及びオフセットの組み合わせに対応するフィルタ情報が形態素位置情報1211から検索されて、作業領域1212に追加される。
「県」及び“2”
「川崎」及び“3”
「市」及び“4”
「多摩」及び“5”
「区」及び“6”
「登戸」及び“7”
しかし、次の形態素「に」とオフセット“8”との組み合わせに対応するフィルタ情報は形態素位置情報1211に存在しないため、図17の7個のフィルタ情報を参照して、すべての形態素に対してビット値“1”を含むブロックが特定される。このとき、判定部712は、図17の各ブロックに対応する7個のビット値を含む縦方向のビット列と、7個のビット値“1”を含むビット列との論理積を求めることで、すべての形態素に対してビット値“1”を含むブロックを特定してもよい。
この場合、すべての形態素に対してビット値“1”を含むブロックは、「神奈川3」のブロックのみであるため、そのブロックが探索対象ブロックに決定される。次に、図13の住所辞書722における「神奈川3」のブロック内で、「神奈川/県/川崎/市/多摩/区/登戸」という符号化対象文字列が探索される。そして、「神奈川/県/川崎/市/多摩/区/登戸」が対応する符号に変換され、後続する「に」及び「住む」は形態素解析辞書721の符号に変換される。
また、「東京都多摩市一ノ宮に住む」という符号化対象テキストは、「東京/都/多摩/市/一ノ宮/に/住む」のように分割される。図8の形態素解析辞書721では、先頭の「東京」のフラグ“1”が切り替えを示しているため、図14の形態素位置情報1211から、「東京」とオフセット“1”との組み合わせに対応するフィルタ情報が検索される。そして、対応するフィルタ情報のビット列は、「東京1」及び「東京2」のブロックにビット値“1”を含んでいるため、このビット列が作業領域1212に追加される。
同様にして、以下のような形態素及びオフセットの組み合わせに対応するフィルタ情報が形態素位置情報1211から検索されて、作業領域1212に追加される。
「都」及び“2”
「多摩」及び“3”
「市」及び“4”
「一ノ宮」及び“5”
しかし、次の形態素「に」とオフセット“6”との組み合わせに対応するフィルタ情報は形態素位置情報1211に存在しないため、5個のフィルタ情報を参照して、すべての形態素に対してビット値“1”を含むブロックが特定される。そして、該当するブロックが「東京1」のブロックのみである場合、そのブロックが探索対象ブロックに決定される。
次に、図13の住所辞書722における「東京1」のブロック内で、「東京/都/多摩/市/一ノ宮」という符号化対象文字列が探索される。そして、「東京/都/多摩/市/一ノ宮」が対応する符号に変換され、後続する「に」及び「住む」は形態素解析辞書721の符号に変換される。
一方、「神奈川に行く」という符号化対象テキストは、「神奈川/に/行く」のように分割される。図8の形態素解析辞書721では、先頭の「神奈川」のフラグ“1”が切り替えを示しているため、図14の形態素位置情報1211から、「神奈川」とオフセット“1”との組み合わせに対応するフィルタ情報が検索される。そして、対応するフィルタ情報のビット列は、「神奈川1」〜「神奈川5」のブロックにビット値“1”を含んでいるため、このビット列が作業領域1212に追加される。
しかし、次の形態素「に」とオフセット“2”との組み合わせに対応するフィルタ情報は形態素位置情報1211に存在しないため、「神奈川」のフィルタ情報のみを参照してビット値“1”を含むブロックが特定される。この場合、「神奈川1」〜「神奈川5」の5個のブロックが該当するため、「神奈川」から始まる文字列が住所辞書722に登録されていないと判定される。したがって、住所辞書722内で「神奈川」が探索されることはなく、「神奈川」は形態素解析辞書721の符号に変換される。
このように、図12の符号化装置501によれば、符号化対象テキスト内の形態素が住所辞書722の登録文字列の先頭の形態素と一致しているが、その形態素から始まる符号化対象文字列がいずれの登録文字列とも一致しない場合は、住所辞書722の探索が省略される。これにより、不要な探索処理が削減されるため、符号化処理がさらに高速化される。
ところで、第2パスの符号化において、住所辞書722の代わりに、住所以外の他の文字列を登録した辞書を用いることも可能である。例えば、固有名詞の文字列を登録した固有名詞辞書、成句の文字列を登録した成句辞書、慣用句の文字列を登録した慣用句辞書、エラーメッセージの文字列を登録したエラーメッセージ辞書等を住所辞書722の代わりに用いてもよい。
図18は、エラーメッセージ辞書の例を示している。図18のエラーメッセージ辞書は、エラーメッセージ及び符号を含む。エラーメッセージは、エラーメッセージを表す複数の形態素を含み、符号は、各エラーメッセージに対応付けられた符号を表す。例えば、“File Deliver Start”の符号は0xe001であり、“Memory Allocate Error”の符号は0xe002である。図9の住所辞書722と同様に、複数のエラーメッセージを先頭の形態素に対応する複数のブロックに分割して、エラーメッセージ辞書に登録してもよい。
図5、図7、及び図12の符号化装置501の構成は一例に過ぎず、符号化装置501の用途や条件に応じて一部の構成要素を省略又は変更してもよい。
図6、図10、図11、図15、及び図16のフローチャートは一例に過ぎず、符号化装置501の構成や条件に応じて一部の処理を省略又は変更してもよい。例えば、形態素解析辞書721にあらかじめ切り替え情報が設定されている場合は、図10の切り替え情報設定処理を省略することができる。
図8の形態素解析辞書、図9及び図13の住所辞書、図14の形態素位置情報、及び図18のエラーメッセージ辞書は一例に過ぎず、符号化装置501の構成や条件に応じて別の形態素解析辞書、住所辞書、形態素位置情報、又はエラーメッセージ辞書を用いてもよい。例えば、図12の符号化装置501において、図13の住所辞書の代わりに図9の住所辞書を用いてもよい。
図5、図7、及び図12の符号化装置501は、例えば、図19に示すような情報処理装置(コンピュータ)を用いて実現可能である。図19の情報処理装置は、Central Processing Unit(CPU)1901、メモリ1902、入力装置1903、出力装置1904、補助記憶装置1905、媒体駆動装置1906、及びネットワーク接続装置1907を含む。これらの構成要素はバス1908により互いに接続されている。
メモリ1902は、例えば、Read Only Memory(ROM)、Random Access Memory(RAM)、フラッシュメモリ等の半導体メモリである。メモリ1902は、符号化処理のためのプログラム及びデータを格納する。メモリ1902は、図5、図7、及び図12の記憶部511として用いることができる。
CPU1901(プロセッサ)は、例えば、メモリ1902を利用してプログラムを実行することにより、図5、図7、及び図12の符号化部512、解析部711、判定部712、変換部713、及び変換部714として動作し、符号化処理を行う。
入力装置1903は、例えば、キーボード、ポインティングデバイス等であり、ユーザ又はオペレータからの指示や情報の入力に用いられる。出力装置1904は、例えば、表示装置、プリンタ、スピーカ等であり、ユーザ又はオペレータへの問い合わせや処理結果の出力に用いられる。
補助記憶装置1905は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置1905は、ハードディスクドライブ又はフラッシュメモリであってもよい。情報処理装置は、補助記憶装置1905にプログラム及びデータを格納しておき、それらをメモリ1902にロードして使用することができる。補助記憶装置1905は、図5、図7、及び図12の記憶部511として用いることができる。
媒体駆動装置1906は、可搬型記録媒体1909を駆動し、その記録内容にアクセスする。可搬型記録媒体1909は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体1909は、Compact Disk Read Only Memory(CD−ROM)、Digital Versatile Disk(DVD)、Universal Serial Bus(USB)メモリ等であってもよい。ユーザ又はオペレータは、この可搬型記録媒体1909にプログラム及びデータを格納しておき、それらをメモリ1902にロードして使用することができる。
このように、プログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ1902、補助記憶装置1905、及び可搬型記録媒体1909のような、物理的な(非一時的な)記録媒体である。
ネットワーク接続装置1907は、Local Area Network(LAN)、インターネット等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェースである。情報処理装置は、ネットワーク接続装置1907を介して外部の装置からプログラム及びデータを受信し、それらをメモリ1902にロードして使用することができる。ネットワーク接続装置1907は、図5、図7、及び図12の出力部513として用いることができる。
なお、情報処理装置が図19のすべての構成要素を含む必要はなく、用途や条件に応じて一部の構成要素を省略することも可能である。例えば、ユーザ又はオペレータからの指示や情報の入力を行わない場合は、入力装置1903を省略してもよく、ユーザ又はオペレータへの問い合わせや処理結果の出力を行わない場合は、出力装置1904を省略してもよい。情報処理装置が可搬型記録媒体1909又は通信ネットワークにアクセスしない場合は、媒体駆動装置1906又はネットワーク接続装置1907を省略してもよい。
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

Claims (5)

  1. 形態素の区分に用いられ、登録文字列と第1符号とを対応付けた第1レコードを複数有する文字列符号化情報に含まれる各第1レコードの登録文字列の先頭形態素と第2符号とを対応付けた第2レコードを複数含むとともに、形態素と第符号とを対応付けた第3レコードを複数有する形態素区分情報に基づいて、符号化対象テキストを解析し、
    前記形態素区分情報に含まれる複数の第2レコードのうち、ある登録文字列に対応した第2レコードに含まれる、ある先頭形態素の識別に応じて、前記符号化対象テキストに含まれる前記ある先頭形態素から始まる符号化対象文字列を前記文字列符号化情報において探索し、
    前記符号化対象文字列が前記ある登録文字列に対応する場合、前記符号化対象文字列を前記文字列符号化情報において前記ある登録文字列に対応付けられた第1符号に変換し、
    前記符号化対象文字列が前記文字列符号化情報に含まれる第1レコードの登録文字列に対応しない場合、前記符号化対象文字列を前記形態素区分情報の第2レコードにおいて前記ある先頭形態素に対応付けられた第2符号と、前記形態素区分情報の第3レコードにおいて前記符号化対象文字列に含まれる形態素に対応付けられた第3符号とに変換し、
    前記第1符号を含む符号化テキスト、又は前記第2符号と前記第3符号とを含む符号化テキストを出力する、
    処理をコンピュータに実行させる符号化プログラム。
  2. 前記文字列符号化情報は、複数の先頭形態素それぞれに対応する複数のブロックを含み、前記複数のブロックの各々は、前記複数の先頭形態素の各々から始まる複数の登録文字列と前記複数の登録文字列それぞれに対応付けられた複数の第1符号とを含み、前記コンピュータは、前記複数のブロックのうち前記ある先頭形態素に対応するブロックに含まれる前記複数の登録文字列の中から、前記符号化対象文字列を探索することを特徴とする請求項1記載の符号化プログラム。
  3. 前記コンピュータは、形態素と登録文字列内における位置との組み合わせ毎に、前記複数のブロックそれぞれが前記組み合わせに対応する登録文字列を含むか否かを示す形態素位置情報を記憶しており、前記符号化対象文字列に含まれる各形態素と前記符号化対象文字列内における各形態素の位置とに基づいて、前記形態素位置情報を参照することで、前記ある登録文字列を含むブロックを特定し、特定したブロックに含まれる前記複数の登録文字列の中から前記符号化対象文字列を探索することを特徴とする請求項2記載の符号化プログラム。
  4. 登録文字列と第1符号とを対応付けた第1レコードを複数有する文字列符号化情報と、形態素の区分に用いられ、前記文字列符号化情報に含まれる各第1レコードの登録文字列の先頭形態素と第2符号とを対応付けた第2レコードを複数含むとともに、形態素と第2符号とを対応付けた第3レコードを複数有する形態素区分情報とを記憶する記憶部と、
    前記形態素区分情報に基づいて符号化対象テキストを解析し、前記形態素区分情報に含まれる複数の第2レコードのうち、ある登録文字列に対応した第2レコードに含まれる、ある先頭形態素の識別に応じて、前記符号化対象テキストに含まれる前記ある先頭形態素から始まる符号化対象文字列を前記文字列符号化情報において探索し、前記符号化対象文字列が前記ある登録文字列に対応する場合、前記符号化対象文字列を前記文字列符号化情報において前記ある登録文字列に対応付けられた第1符号に変換し、前記符号化対象文字列が前記文字列符号化情報に含まれる第1レコードの登録文字列に対応しない場合、前記符号化対象文字列を前記形態素区分情報の第2レコードにおいて前記ある先頭形態素に対応付けられた第2符号と、前記形態素区分情報の第3レコードにおいて前記符号化対象文字列に含まれる形態素に対応付けられた第3符号とに変換する符号化部と、
    前記第1符号を含む符号化テキスト、又は前記第2符号と前記第3符号とを含む符号化テキストを出力する出力部と、
    を備えることを特徴とする符号化装置。
  5. コンピュータが、
    形態素の区分に用いられ、登録文字列と第1符号とを対応付けた第1レコードを複数有する文字列符号化情報に含まれる各第1レコードの登録文字列の先頭形態素と第2符号とを対応付けた第2レコードを複数含むとともに、形態素と第2符号とを対応付けた第3レコードを複数有する形態素区分情報に基づいて、符号化対象テキストを解析し、
    前記形態素区分情報に含まれる複数の第2レコードのうち、ある登録文字列に対応した第2レコードに含まれる、ある先頭形態素の識別に応じて、前記符号化対象テキストに含まれる前記ある先頭形態素から始まる符号化対象文字列を前記文字列符号化情報において探索し、
    前記符号化対象文字列が前記ある登録文字列に対応する場合、前記符号化対象文字列を前記文字列符号化情報において前記ある登録文字列に対応付けられた第1符号に変換し、
    前記符号化対象文字列が前記文字列符号化情報に含まれる第1レコードの登録文字列に対応しない場合、前記符号化対象文字列を前記形態素区分情報の第2レコードにおいて前記ある先頭形態素に対応付けられた第2符号と、前記形態素区分情報の第3レコードにおいて前記符号化対象文字列に含まれる形態素に対応付けられた第3符号とに変換し、
    前記第1符号を含む符号化テキスト、又は前記第2符号と前記第3符号とを含む符号化テキストを出力する、
    ことを特徴とする符号化方法。
JP2017530480A 2015-07-24 2015-07-24 符号化プログラム、符号化装置、及び符号化方法 Active JP6753401B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/071171 WO2017017738A1 (ja) 2015-07-24 2015-07-24 符号化プログラム、符号化装置、及び符号化方法

Publications (2)

Publication Number Publication Date
JPWO2017017738A1 JPWO2017017738A1 (ja) 2018-05-31
JP6753401B2 true JP6753401B2 (ja) 2020-09-09

Family

ID=57884236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017530480A Active JP6753401B2 (ja) 2015-07-24 2015-07-24 符号化プログラム、符号化装置、及び符号化方法

Country Status (3)

Country Link
US (1) US10747946B2 (ja)
JP (1) JP6753401B2 (ja)
WO (1) WO2017017738A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6737025B2 (ja) * 2016-07-19 2020-08-05 富士通株式会社 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法
US10394860B1 (en) * 2016-11-23 2019-08-27 Parallels International Gmbh Zero knowledge search engine
JP7010365B2 (ja) * 2018-03-19 2022-01-26 日本電信電話株式会社 パラメータ設定装置、演算装置、それらの方法、およびプログラム
CN109739512B (zh) * 2018-12-28 2022-04-12 江苏极光网络技术有限公司 一种解析型语言文本式分析转换方法
CN109857740B (zh) * 2019-01-25 2021-06-04 上海赜睿信息科技有限公司 字符串的存储方法、匹配方法、电子设备及可读存储介质
JP7229795B2 (ja) * 2019-02-01 2023-02-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ アノテーション装置、アノテーション方法、及び、プログラム
CN110390063B (zh) * 2019-07-03 2022-04-22 北京字节跳动网络技术有限公司 一种数据解析方法、装置、介质和电子设备
JP7256935B2 (ja) * 2019-09-02 2023-04-13 富士通株式会社 辞書作成装置及び辞書作成方法
CN115668385A (zh) * 2020-06-05 2023-01-31 富士通株式会社 信息处理程序、信息处理方法以及信息处理装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0176858B1 (en) * 1984-09-18 1993-01-20 Sharp Kabushiki Kaisha Translation system
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
JP2765665B2 (ja) * 1991-08-01 1998-06-18 富士通株式会社 タイポグラフィカル情報付き文書の翻訳装置
US5268840A (en) * 1992-04-30 1993-12-07 Industrial Technology Research Institute Method and system for morphologizing text
US5590317A (en) 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
JPH05324427A (ja) * 1992-05-27 1993-12-07 Hitachi Ltd 文書情報圧縮装置
JPH0773279A (ja) * 1993-07-05 1995-03-17 Hitachi Ltd 文字変換装置
JPH07230461A (ja) 1993-12-24 1995-08-29 Ricoh Co Ltd 構文解析装置及び機械翻訳装置
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
JPH09231219A (ja) 1996-02-26 1997-09-05 Fujitsu Ltd 表記地名の校正支援方法および校正支援地名辞書および校正支援システム
JP4057681B2 (ja) * 1997-09-10 2008-03-05 富士通株式会社 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体
JP3421700B2 (ja) * 1998-01-22 2003-06-30 富士通株式会社 データ圧縮装置及び復元装置並びにその方法
CN1652107A (zh) * 1998-06-04 2005-08-10 松下电器产业株式会社 语言变换规则产生装置、语言变换装置及程序记录媒体
JP4003854B2 (ja) * 1998-09-28 2007-11-07 富士通株式会社 データ圧縮装置及び復元装置並びにその方法
JP4083400B2 (ja) 2001-07-30 2008-04-30 三菱電機株式会社 アクセント句境界決定装置、音声合成装置及び方法並びにプログラム
JP4693466B2 (ja) * 2005-04-06 2011-06-01 東芝ソリューション株式会社 レポートチェック装置、レポート作成装置、記憶媒体、プログラム
JP4140920B2 (ja) * 2006-04-20 2008-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 個人情報の保護を支援する情報処理装置
US8175875B1 (en) * 2006-05-19 2012-05-08 Google Inc. Efficient indexing of documents with similar content
KR101042515B1 (ko) * 2008-12-11 2011-06-17 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
KR20120113717A (ko) * 2009-12-04 2012-10-15 소니 주식회사 검색 장치, 검색 방법, 및 프로그램
US9575937B2 (en) * 2010-08-24 2017-02-21 Nec Corporation Document analysis system, document analysis method, document analysis program and recording medium
JP5505234B2 (ja) * 2010-09-29 2014-05-28 富士通株式会社 文字列比較プログラム、文字列比較装置及び文字列比較方法
JP2014021905A (ja) * 2012-07-23 2014-02-03 Fujitsu Ltd 入力支援プログラム、入力支援方法および入力支援装置
US9208594B2 (en) * 2012-07-27 2015-12-08 Semantic Compactions Systems, Inc. Apparatus, computer readable medium and method for effectively using visual indicators in navigating polysemous symbols across a plurality of linked electronic screen overlays
JP6028567B2 (ja) * 2012-12-28 2016-11-16 富士通株式会社 データ格納プログラム、データ検索プログラム、データ格納装置、データ検索装置、データ格納方法及びデータ検索方法
JP5753217B2 (ja) * 2013-05-17 2015-07-22 株式会社アイディーズ 商品コード分析システム及び商品コード分析プログラム
WO2014204338A1 (en) * 2013-06-18 2014-12-24 Abbyy Development Llc Methods and systems that use a hierarchically organized data structure containing standard feature symbols in order to convert document images to electronic documents
JP6098725B2 (ja) * 2013-09-02 2017-03-22 富士通株式会社 情報検索処理プログラム、装置、および方法
TWI525606B (zh) * 2014-06-05 2016-03-11 和碩聯合科技股份有限公司 資訊提供方法、系統及字串提供系統
JP6531398B2 (ja) * 2015-01-19 2019-06-19 富士通株式会社 プログラム
JP6447161B2 (ja) * 2015-01-20 2019-01-09 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法

Also Published As

Publication number Publication date
WO2017017738A1 (ja) 2017-02-02
US20180143954A1 (en) 2018-05-24
JPWO2017017738A1 (ja) 2018-05-31
US10747946B2 (en) 2020-08-18

Similar Documents

Publication Publication Date Title
JP6753401B2 (ja) 符号化プログラム、符号化装置、及び符号化方法
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
Gesmundo et al. Lemmatisation as a tagging task
US20130158999A1 (en) Voice recognition apparatus and navigation system
JP6447161B2 (ja) 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
EP3032439B1 (en) Compression computer program and search computer program
JP2006301446A (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
US10403265B2 (en) Voice recognition apparatus and voice recognition method
JP6680126B2 (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
TW201335776A (zh) 辭典產生裝置、辭典產生方法、辭典產生程式、及記憶該程式之電腦可讀取記錄媒體
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
US20190155902A1 (en) Information generation method, information processing device, and word extraction method
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
CN114943203A (zh) 汉字相似度的获得方法、装置、电子设备和存储设备
KR102355731B1 (ko) 해석 프로그램, 해석 방법 및 해석 장치
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
JP6838471B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
Rama et al. A computational algorithm for metrical classification of verse
KR102278288B1 (ko) 음소 기반 텍스트 검색 장치 및 방법
JP2021085996A (ja) 音声認識システム、音声認識方法
JP2011180862A (ja) 用語抽出方法とその装置と、プログラム
WO2018211810A1 (ja) 解析プログラム、解析方法および解析装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191017

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191017

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191017

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200610

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200803

R150 Certificate of patent or registration of utility model

Ref document number: 6753401

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150