JP2018013863A - 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 - Google Patents
符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 Download PDFInfo
- Publication number
- JP2018013863A JP2018013863A JP2016141598A JP2016141598A JP2018013863A JP 2018013863 A JP2018013863 A JP 2018013863A JP 2016141598 A JP2016141598 A JP 2016141598A JP 2016141598 A JP2016141598 A JP 2016141598A JP 2018013863 A JP2018013863 A JP 2018013863A
- Authority
- JP
- Japan
- Prior art keywords
- information
- semantic
- semantic structure
- search
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】コンピュータは、文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成する(ステップ501)。次に、コンピュータは、複数の文それぞれについて、複数の形態素それぞれを符号化した複数の符号を生成する(ステップ502)。そして、コンピュータは、複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、特定された符号それぞれに対し、欠落情報をそれぞれ付加する(ステップ503)。
【選択図】図5
Description
(1)コンピュータは、文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成する。
(2)コンピュータは、複数の文それぞれについて、複数の形態素それぞれを符号化した複数の符号を生成する。
(3)コンピュータは、複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、特定された符号それぞれに対し、欠落情報をそれぞれ付加する。
先願である特願2015−8936号に記載された技術(以下では、先願技術と記載する)では、文書に対する形態素解析により得られた形態素と、意味解析により得られた意味記号とを併せた一連の符号を用いて、文書が符号化される。これにより、形態素解析結果と意味解析結果との対応関係を符号化文書に効果的に埋め込むことができ、意味記号を用いて直接符号化文書を検索することが可能になる。
第1文:「パッチはサーバーに当てて再起動した。」
第2文:「すると、起動しなかった。」
S=idf1*N1+idf2*N2 (1)
S=idf11*N11+idf12*N12 (2)
SC2=SC2+SC3×(1/D) (3)
(付記1)
文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、
前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、
前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、
前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する、
処理をコンピュータに実行させる符号化プログラム。
(付記2)
前記複数の形態素が属する前記意味構造は、前記複数の形態素それぞれに対応する複数の意味記号と、前記複数の意味記号の間の接続関係とを用いて表され、前記欠落情報は、前記文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含むことを特徴とする付記1記載の符号化プログラム。
(付記3)
前記コンピュータは、前記複数の符号各々に対して、前記欠落情報、又は前記文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報を付加することを特徴とする付記2記載の符号化プログラム。
(付記4)
前記意味構造情報は、前記複数の意味記号各々について、前記複数の意味記号のうち他の意味記号に対する接続距離を表す接続距離情報と、前記他の意味記号に対する接続関係を表す接続関係情報とを含むことを特徴とする付記2又は3記載の符号化プログラム。
(付記5)
検索要求に含まれる複数の形態素が属する意味構造を表す検索要求意味構造情報を生成し、
検索対象文書に含まれる複数の文それぞれについて文に含まれる複数の形態素が属する意味構造を表す検索対象意味構造情報と、前記複数の文それぞれについて前記複数の形態素それぞれを符号化することで生成された複数の符号と、前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号それぞれに対して付加された欠落情報とを含む、符号化文書から、前記検索要求意味構造情報に基づいて前記検索要求に対応する文を検索し、
検索結果を出力する、
処理をコンピュータに実行させる検索プログラム。
(付記6)
前記検索要求に含まれる前記複数の形態素が属する前記意味構造は、前記検索要求に含まれる前記複数の形態素それぞれに対応する複数の意味記号と、前記検索要求に含まれる前記複数の意味記号の間の接続関係とを用いて表され、
前記文に含まれる前記複数の形態素が属する前記意味構造は、前記文に含まれる前記複数の形態素それぞれに対応する複数の意味記号と、前記文に含まれる前記複数の意味記号の間の接続関係とを用いて表され、
前記欠落情報は、前記検索対象文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含み、
前記コンピュータは、前記符号化文書から、前記検索要求に含まれる前記複数の形態素のうち1つの形態素を検索し、検索した形態素が、前記欠落情報が付加された前記符号に対応する場合、前記欠落情報を参照して、前記同じ意味記号に対応する形態素が出現する前記文を特定し、前記検索対象意味構造情報において、特定した前記文に出現する前記同じ意味記号に対応する形態素が属する第1意味構造と、前記検索対象意味構造情報において、前記欠落情報が付加された前記符号に対応する形態素が属する第2意味構造と、前記検索要求意味構造情報とを用いて、前記検索要求に対応する前記文を検索することを特徴とする付記5記載の検索プログラム。
(付記7)
前記複数の符号各々に対して、前記欠落情報、又は前記検索対象文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報が付加されており、
前記コンピュータは、前記検索した形態素が、前記非出現情報が付加された符号に対応する場合、前記検索対象意味構造情報において、前記非出現情報が付加された前記符号に対応する形態素が属する第3意味構造と、前記検索要求意味構造情報とを用いて、前記検索要求に対応する前記文を検索することを特徴とする付記6記載の検索プログラム。
(付記8)
前記検索要求意味構造情報及び前記検索対象意味構造情報は、前記複数の意味記号各々について、前記複数の意味記号のうち他の意味記号に対する接続距離を表す接続距離情報と、前記他の意味記号に対する接続関係を表す接続関係情報とを含み、
前記コンピュータは、前記検索要求意味構造情報に含まれる接続距離情報及び接続関係情報と、前記検索対象意味構造情報に含まれる接続距離情報及び接続関係情報とを比較することで、前記検索要求に対応する前記文を検索することを特徴とする付記6又は7記載の検索プログラム。
(付記9)
文書を記憶する記憶部と、
前記文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する符号化部と、
備えることを特徴とする符号化装置。
(付記10)
前記複数の形態素が属する前記意味構造は、前記複数の形態素それぞれに対応する複数の意味記号と、前記複数の意味記号の間の接続関係とを用いて表され、前記欠落情報は、前記文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含むことを特徴とする付記9記載の符号化装置。
(付記11)
前記符号化部は、前記複数の符号各々に対して、前記欠落情報、又は前記文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報を付加することを特徴とする付記10記載の符号化装置。
(付記12)
コンピュータが、
文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、
前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、
前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、
前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する、
ことを特徴とする符号化方法。
(付記13)
前記複数の形態素が属する前記意味構造は、前記複数の形態素それぞれに対応する複数の意味記号と、前記複数の意味記号の間の接続関係とを用いて表され、前記欠落情報は、前記文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含むことを特徴とする付記12記載の符号化方法。
(付記14)
前記コンピュータは、前記複数の符号各々に対して、前記欠落情報、又は前記文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報を付加することを特徴とする付記13記載の符号化方法。
411、611 記憶部
412 符号化部
421 文書
601 検索装置
612 検索部
613、802 出力部
621 符号化文書
801、1801 解析部
802 出力部
811 符号化情報
812、1812 解析結果
901−1〜901−3、1701−1〜1701−6、2903 符号
902−1〜902−3、1702−1〜1702−6、2904 付加情報
903−1〜903−3、1703−1〜1703−4 意味構造情報
1811 検索要求
1813 検索要求意味構造情報
1814 スコア情報
1815 検索結果
2701〜2704 ビット列
2702 ビット列
2703 ビット列
2704 ビット列
2901−1〜2901−P 文
2902−1〜2902−Q 形態素
3101 CPU
3102 メモリ
3103 入力装置
3104 出力装置
3105 補助記憶装置
3106 媒体駆動装置
3107 ネットワーク接続装置
3108 バス
3109 可搬型記録媒体
(付記1)
文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、
前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、
前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、
前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する、
処理をコンピュータに実行させる符号化プログラム。
(付記2)
前記複数の形態素が属する前記意味構造は、前記複数の形態素それぞれに対応する複数の意味記号と、前記複数の意味記号の間の接続関係とを用いて表され、前記欠落情報は、前記文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含むことを特徴とする付記1記載の符号化プログラム。
(付記3)
前記コンピュータは、前記複数の符号各々に対して、前記欠落情報、又は前記文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報を付加することを特徴とする付記2記載の符号化プログラム。
(付記4)
前記意味構造情報は、前記複数の意味記号各々について、前記複数の意味記号のうち他の意味記号に対する接続距離を表す接続距離情報と、前記他の意味記号に対する接続関係を表す接続関係情報とを含むことを特徴とする付記2又は3記載の符号化プログラム。
(付記5)
検索要求に含まれる複数の形態素が属する意味構造を表す検索要求意味構造情報を生成し、
検索対象文書に含まれる複数の文それぞれについて文に含まれる複数の形態素が属する意味構造を表す検索対象意味構造情報と、前記複数の文それぞれについて前記複数の形態素それぞれを符号化することで生成された複数の符号と、前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号それぞれに対して付加された欠落情報とを含む、符号化文書から、前記検索要求意味構造情報に基づいて前記検索要求に対応する文を検索し、
検索結果を出力する、
処理をコンピュータに実行させる検索プログラム。
(付記6)
前記検索要求に含まれる前記複数の形態素が属する前記意味構造は、前記検索要求に含まれる前記複数の形態素それぞれに対応する複数の意味記号と、前記検索要求に含まれる前記複数の意味記号の間の接続関係とを用いて表され、
前記文に含まれる前記複数の形態素が属する前記意味構造は、前記文に含まれる前記複数の形態素それぞれに対応する複数の意味記号と、前記文に含まれる前記複数の意味記号の間の接続関係とを用いて表され、
前記欠落情報は、前記検索対象文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含み、
前記コンピュータは、前記符号化文書から、前記検索要求に含まれる前記複数の形態素のうち1つの形態素を検索し、検索した形態素が、前記欠落情報が付加された前記符号に対応する場合、前記欠落情報を参照して、前記同じ意味記号に対応する形態素が出現する前記文を特定し、前記検索対象意味構造情報において、特定した前記文に出現する前記同じ意味記号に対応する形態素が属する第1意味構造と、前記検索対象意味構造情報において、前記欠落情報が付加された前記符号に対応する形態素が属する第2意味構造と、前記検索要求意味構造情報とを用いて、前記検索要求に対応する前記文を検索することを特徴とする付記5記載の検索プログラム。
(付記7)
前記複数の符号各々に対して、前記欠落情報、又は前記検索対象文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報が付加されており、
前記コンピュータは、前記検索した形態素が、前記非出現情報が付加された符号に対応する場合、前記検索対象意味構造情報において、前記非出現情報が付加された前記符号に対応する形態素が属する第3意味構造と、前記検索要求意味構造情報とを用いて、前記検索要求に対応する前記文を検索することを特徴とする付記6記載の検索プログラム。
(付記8)
前記検索要求意味構造情報及び前記検索対象意味構造情報は、前記複数の意味記号各々について、前記複数の意味記号のうち他の意味記号に対する接続距離を表す接続距離情報と、前記他の意味記号に対する接続関係を表す接続関係情報とを含み、
前記コンピュータは、前記検索要求意味構造情報に含まれる接続距離情報及び接続関係情報と、前記検索対象意味構造情報に含まれる接続距離情報及び接続関係情報とを比較することで、前記検索要求に対応する前記文を検索することを特徴とする付記6又は7記載の検索プログラム。
(付記9)
文書を記憶する記憶部と、
前記文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する符号化部と、
を備えることを特徴とする符号化装置。
(付記10)
前記複数の形態素が属する前記意味構造は、前記複数の形態素それぞれに対応する複数の意味記号と、前記複数の意味記号の間の接続関係とを用いて表され、前記欠落情報は、前記文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含むことを特徴とする付記9記載の符号化装置。
(付記11)
前記符号化部は、前記複数の符号各々に対して、前記欠落情報、又は前記文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報を付加することを特徴とする付記10記載の符号化装置。
(付記12)
コンピュータが、
文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、
前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、
前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、
前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する、
ことを特徴とする符号化方法。
(付記13)
前記複数の形態素が属する前記意味構造は、前記複数の形態素それぞれに対応する複数の意味記号と、前記複数の意味記号の間の接続関係とを用いて表され、前記欠落情報は、前記文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含むことを特徴とする付記12記載の符号化方法。
(付記14)
前記コンピュータは、前記複数の符号各々に対して、前記欠落情報、又は前記文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報を付加することを特徴とする付記13記載の符号化方法。
Claims (12)
- 文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、
前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、
前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、
前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する、
処理をコンピュータに実行させる符号化プログラム。 - 前記複数の形態素が属する前記意味構造は、前記複数の形態素それぞれに対応する複数の意味記号と、前記複数の意味記号の間の接続関係とを用いて表され、前記欠落情報は、前記文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含むことを特徴とする請求項1記載の符号化プログラム。
- 前記コンピュータは、前記複数の符号各々に対して、前記欠落情報、又は前記文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報を付加することを特徴とする請求項2記載の符号化プログラム。
- 前記意味構造情報は、前記複数の意味記号各々について、前記複数の意味記号のうち他の意味記号に対する接続距離を表す接続距離情報と、前記他の意味記号に対する接続関係を表す接続関係情報とを含むことを特徴とする請求項2又は3記載の符号化プログラム。
- 検索要求に含まれる複数の形態素が属する意味構造を表す検索要求意味構造情報を生成し、
検索対象文書に含まれる複数の文それぞれについて文に含まれる複数の形態素が属する意味構造を表す検索対象意味構造情報と、前記複数の文それぞれについて前記複数の形態素それぞれを符号化することで生成された複数の符号と、前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号それぞれに対して付加された欠落情報とを含む、符号化文書から、前記検索要求意味構造情報に基づいて前記検索要求に対応する文を検索し、
検索結果を出力する、
処理をコンピュータに実行させる検索プログラム。 - 前記検索要求に含まれる前記複数の形態素が属する前記意味構造は、前記検索要求に含まれる前記複数の形態素それぞれに対応する複数の意味記号と、前記検索要求に含まれる前記複数の意味記号の間の接続関係とを用いて表され、
前記文に含まれる前記複数の形態素が属する前記意味構造は、前記文に含まれる前記複数の形態素それぞれに対応する複数の意味記号と、前記文に含まれる前記複数の意味記号の間の接続関係とを用いて表され、
前記欠落情報は、前記検索対象文書内において、前記欠落情報が付加された符号に対応する形態素と同じ意味記号に対応する形態素が、前記欠落情報が付加された前記符号に対応する形態素よりも前に出現することを示し、前記複数の文のうち前記同じ意味記号に対応する形態素が出現する文を特定する情報を含み、
前記コンピュータは、前記符号化文書から、前記検索要求に含まれる前記複数の形態素のうち1つの形態素を検索し、検索した形態素が、前記欠落情報が付加された前記符号に対応する場合、前記欠落情報を参照して、前記同じ意味記号に対応する形態素が出現する前記文を特定し、前記検索対象意味構造情報において、特定した前記文に出現する前記同じ意味記号に対応する形態素が属する第1意味構造と、前記検索対象意味構造情報において、前記欠落情報が付加された前記符号に対応する形態素が属する第2意味構造と、前記検索要求意味構造情報とを用いて、前記検索要求に対応する前記文を検索することを特徴とする請求項5記載の検索プログラム。 - 前記複数の符号各々に対して、前記欠落情報、又は前記検索対象文書内において同じ意味記号に対応する形態素が前に出現しないことを示す非出現情報が付加されており、
前記コンピュータは、前記検索した形態素が、前記非出現情報が付加された符号に対応する場合、前記検索対象意味構造情報において、前記非出現情報が付加された前記符号に対応する形態素が属する第3意味構造と、前記検索要求意味構造情報とを用いて、前記検索要求に対応する前記文を検索することを特徴とする請求項6記載の検索プログラム。 - 前記検索要求意味構造情報及び前記検索対象意味構造情報は、前記複数の意味記号各々について、前記複数の意味記号のうち他の意味記号に対する接続距離を表す接続距離情報と、前記他の意味記号に対する接続関係を表す接続関係情報とを含み、
前記コンピュータは、前記検索要求意味構造情報に含まれる接続距離情報及び接続関係情報と、前記検索対象意味構造情報に含まれる接続距離情報及び接続関係情報とを比較することで、前記検索要求に対応する前記文を検索することを特徴とする請求項6又は7記載の検索プログラム。 - 文書を記憶する記憶部と、
前記文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する、
符号化部と、
を備えることを特徴とする符号化装置。 - 検索対象文書に含まれる複数の文それぞれについて文に含まれる複数の形態素が属する意味構造を表す検索対象意味構造情報と、前記複数の文それぞれについて前記複数の形態素それぞれを符号化することで生成された複数の符号と、前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号それぞれに対して付加された欠落情報とを含む、符号化文書を記憶する記憶部と、
検索要求に含まれる複数の形態素が属する意味構造を表す検索要求意味構造情報を生成し、前記符号化文書から、前記検索要求意味構造情報に基づいて前記検索要求に対応する文を検索する検索部と、
検索結果を出力する出力部と、
を備えることを特徴とする検索装置。 - コンピュータが、
文書に含まれる複数の文それぞれについて、文に含まれる複数の形態素が属する意味構造を表す意味構造情報を生成し、
前記複数の文それぞれについて、前記複数の形態素それぞれを符号化した複数の符号を生成し、
前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号を特定し、
前記特定された符号それぞれに対し、欠落情報をそれぞれ付加する、
ことを特徴とする符号化方法。 - コンピュータが、
検索要求に含まれる複数の形態素が属する意味構造を表す検索要求意味構造情報を生成し、
検索対象文書に含まれる複数の文それぞれについて文に含まれる複数の形態素が属する意味構造を表す検索対象意味構造情報と、前記複数の文それぞれについて前記複数の形態素それぞれを符号化することで生成された複数の符号と、前記複数の文それぞれについて、各文に含まれる複数の形態素のうち、意味構造において対応する形態素の少なくとも一部が欠落している可能性のある形態素に対応する符号それぞれに対して付加された欠落情報とを含む、符号化文書から、前記検索要求意味構造情報に基づいて前記検索要求に対応する文を検索し、
検索結果を出力する、
ことを特徴とする検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016141598A JP6737025B2 (ja) | 2016-07-19 | 2016-07-19 | 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 |
US15/650,310 US10740562B2 (en) | 2016-07-19 | 2017-07-14 | Search apparatus, encoding method, and search method based on morpheme position in a target document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016141598A JP6737025B2 (ja) | 2016-07-19 | 2016-07-19 | 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018013863A true JP2018013863A (ja) | 2018-01-25 |
JP6737025B2 JP6737025B2 (ja) | 2020-08-05 |
Family
ID=60988703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016141598A Active JP6737025B2 (ja) | 2016-07-19 | 2016-07-19 | 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10740562B2 (ja) |
JP (1) | JP6737025B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7464499B2 (ja) | 2020-10-28 | 2024-04-09 | Kddi株式会社 | コード化装置、コード化方法及びコード化プログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6737117B2 (ja) * | 2016-10-07 | 2020-08-05 | 富士通株式会社 | 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 |
US11289070B2 (en) * | 2018-03-23 | 2022-03-29 | Rankin Labs, Llc | System and method for identifying a speaker's community of origin from a sound sample |
US11341985B2 (en) | 2018-07-10 | 2022-05-24 | Rankin Labs, Llc | System and method for indexing sound fragments containing speech |
KR20200054360A (ko) * | 2018-11-05 | 2020-05-20 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2021183421A2 (en) | 2020-03-09 | 2021-09-16 | John Rankin | Systems and methods for morpheme reflective engagement response |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0258166A (ja) * | 1988-08-24 | 1990-02-27 | Hitachi Ltd | 知識検索方法 |
JPH1185790A (ja) * | 1997-09-10 | 1999-03-30 | Fujitsu Ltd | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 |
JP2005208782A (ja) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
US8126713B2 (en) * | 2002-04-11 | 2012-02-28 | Shengyang Huang | Conversation control system and conversation control method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5062131B2 (ja) | 2008-10-06 | 2012-10-31 | 富士通株式会社 | 情報処理プログラム、情報処理装置、および情報処理方法 |
JP5741577B2 (ja) | 2010-05-28 | 2015-07-01 | 富士通株式会社 | 情報生成プログラム、情報生成装置、および情報生成方法 |
JP5564705B2 (ja) | 2010-07-16 | 2014-08-06 | 株式会社日立製作所 | 文構造解析装置、文構造解析方法および文構造解析プログラム |
JP5197774B2 (ja) | 2011-01-18 | 2013-05-15 | 株式会社東芝 | 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム |
WO2012111078A1 (ja) | 2011-02-14 | 2012-08-23 | 富士通株式会社 | 生成プログラム、生成装置、および生成方法 |
JP5915274B2 (ja) | 2012-03-09 | 2016-05-11 | 富士通株式会社 | 情報検索方法、プログラムおよび情報検索装置 |
WO2017017738A1 (ja) * | 2015-07-24 | 2017-02-02 | 富士通株式会社 | 符号化プログラム、符号化装置、及び符号化方法 |
-
2016
- 2016-07-19 JP JP2016141598A patent/JP6737025B2/ja active Active
-
2017
- 2017-07-14 US US15/650,310 patent/US10740562B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0258166A (ja) * | 1988-08-24 | 1990-02-27 | Hitachi Ltd | 知識検索方法 |
JPH1185790A (ja) * | 1997-09-10 | 1999-03-30 | Fujitsu Ltd | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 |
US8126713B2 (en) * | 2002-04-11 | 2012-02-28 | Shengyang Huang | Conversation control system and conversation control method |
JP2005208782A (ja) * | 2004-01-21 | 2005-08-04 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Non-Patent Citations (1)
Title |
---|
大倉 清司 他1名: "複雑な文に対応した意味構造検索システムの開発", 言語処理学会第20回年次大会 発表論文集 [ONLINE], JPN6019035086, 10 March 2014 (2014-03-10), JP, ISSN: 0004200027 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7464499B2 (ja) | 2020-10-28 | 2024-04-09 | Kddi株式会社 | コード化装置、コード化方法及びコード化プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20180024990A1 (en) | 2018-01-25 |
US10740562B2 (en) | 2020-08-11 |
JP6737025B2 (ja) | 2020-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6737025B2 (ja) | 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 | |
KR102268875B1 (ko) | 전자 장치에 텍스트를 입력하는 시스템 및 방법 | |
CN110162782B (zh) | 基于医学词典的实体提取方法、装置、设备及存储介质 | |
JP2008539476A (ja) | スペル提示の生成方法およびシステム | |
CN111651990B (zh) | 一种实体识别方法、计算设备及可读存储介质 | |
JPWO2020021845A1 (ja) | 文書分類装置及び学習済みモデル | |
US20080208566A1 (en) | Automated word-form transformation and part of speech tag assignment | |
JP5540015B2 (ja) | 単語境界マーカーのない言語で記述されたテキストに対して単語列を選択するための方法およびシステム | |
JP6447161B2 (ja) | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 | |
US9984064B2 (en) | Reduction of memory usage in feature generation | |
CN100429648C (zh) | 一种文本自动分块的方法、分块器和文本到语言合成系统 | |
US10528606B2 (en) | Method for providing search suggestion candidates for input key and method for creating database DFA | |
JP2018055670A (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
JP2017004127A (ja) | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 | |
US20210342534A1 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
JP5317061B2 (ja) | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
WO2018179729A1 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP3080066B2 (ja) | 文字認識装置、方法及び記憶媒体 | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
WO2012131822A1 (ja) | 音声認識結果整形装置、音声認識結果整形方法及びプログラム | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
Bandyopadhyay et al. | HMM based POS Tagger and Rule-based Chunker for Bengali | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170830 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191101 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20191101 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200423 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200629 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6737025 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |