JP6746472B2 - 生成装置、生成方法および生成プログラム - Google Patents
生成装置、生成方法および生成プログラム Download PDFInfo
- Publication number
- JP6746472B2 JP6746472B2 JP2016221001A JP2016221001A JP6746472B2 JP 6746472 B2 JP6746472 B2 JP 6746472B2 JP 2016221001 A JP2016221001 A JP 2016221001A JP 2016221001 A JP2016221001 A JP 2016221001A JP 6746472 B2 JP6746472 B2 JP 6746472B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word
- probability
- search
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 65
- 238000004364 calculation method Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 26
- 238000004519 manufacturing process Methods 0.000 claims 2
- 230000008569 process Effects 0.000 description 40
- 238000012545 processing Methods 0.000 description 22
- 230000014509 gene expression Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 102000053602 DNA Human genes 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 230000008827 biological function Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- XIWFQDBQMCDYJT-UHFFFAOYSA-M benzyl-dimethyl-tridecylazanium;chloride Chemical compound [Cl-].CCCCCCCCCCCCC[N+](C)(C)CC1=CC=CC=C1 XIWFQDBQMCDYJT-UHFFFAOYSA-M 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 235000015243 ice cream Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
〔1−1.生成装置の一例〕
まず、図1を用いて、生成装置が実行する生成処理の一例について説明する。図1は、実施形態に係る生成装置が実行する生成処理の一例を示す図である。図1では、生成装置10は、インターネット等の所定のネットワークNを介して、所定のコンテンツを管理するコンテンツサーバ100や、端末装置200と通信可能である。なお、生成装置10は、ネットワークNを介して、任意の数のコンテンツサーバ100や端末装置200と通信可能であってもよい。
ここで、インデックスの生成手法として、形態素解析等の文字解析技術により、コンテンツに含まれる文章等のテキストから単語を抽出し、抽出した単語をインデックスとする手法が考えられる。しかしながら、このような手法では、テキストが示す意味とは異なる意味を有する単語をインデックスとする恐れがある。例えば、コンテンツに含まれるテキスト中に「東京都」という文字列が存在する場合に、「東京」という単語を抽出した場合には、適切なインデックスを生成できると予測されるが、「京都」という単語を抽出した場合には、適切なインデックスを生成することができない。例えば、「東京都」という文字列を含むコンテンツに対して「京都」という単語をインデックスとした場合は、利用者が「東京」という単語を検索クエリとして入力した際に、コンテンツが検索結果から除外される恐れがある。
上述した例では、生成装置10は、検索対象文字列を一文字ごとに分割する境界を設定した。このような処理を実行した場合には、生成装置10は、日本語や中国語等、文字列に含まれる単語の区切りが曖昧な任意の言語について、単語となる可能性が高い文字列をインデックスとして抽出することができる。しかしながら、実施形態は、これに限定されるものではない。
ここで、インデックスとなる文字列の文字数、すなわち、文字列の単位を小さくした場合には、検索処理における網羅性が増加するものの、検索処理における特定性が小さくなる。一方で、文字列の単位を大きくした場合は、検索処理に特定性が増加するものの、網羅性が減少してしまう。
ここで、上述した生成装置10は、抽出した文字列を検索対象コンテンツのインデックスとした。しかしながら、実施形態は、これに限定されるものではない。例えば、生成装置10は、検索対象文字列からインデックスとして抽出した文字列から、形態素解析等の技術を用いて、さらに他の単語を抽出し、抽出した単語をインデックスに含めてもよい。すなわち、生成装置10は、抽出した単語が複合語である場合は、かかる複合語を構成する単語をインデックスに含めてもよい。このような処理を実行することで、生成装置10は、検索処理における網羅性を向上させることができる。
ここで、生成装置10は、コンテンツに含まれる全てのテキストを1つの検索対象文字列とする必要はない。例えば、生成装置10は、コンテンツに含まれるテキストを句点により区切られた文章に分割する。また、生成装置10は、文章ごとに上述した生成処理を実行することで、インデックスとなる単語を抽出する。そして、生成装置10は、各文章から抽出した文字列を集約することで、コンテンツのインデックスを生成してもよい。ここで、生成装置10は、各文章から抽出した各文字列が単語となる確率やスコアに基づいて、コンテンツのインデックスとする文字列を選択してもよい。
上述したように、生成装置10は、検索対象文字列を任意の単位に分割する境界を設定し、設定した境界が単語の区切りとなる確率を算出する。ここで、生成装置10は、任意の手法を用いて、境界が単語の区切りとなる確率を算出してよい。例えば、生成装置10は、SVM(Support Vector Machine)やロジスティック回帰、tf−idf(Term Frequency-Inverse Document Frequency)、w2v、ディープラーニング等の技術等を用いて、境界が単語の区切りとなる確率を算出してよい。
次に、図1を用いて、生成装置10が実行する処理の一例について説明する。まず、生成装置10は、クロール処理等を実行することで、コンテンツサーバ100から検索対象コンテンツを収集する(ステップS1)。例えば、図1に示す例では、生成装置10は、文章#1〜文章#4を含む検索対象コンテンツC10を収集する。なお、生成装置10は、コンテンツサーバ100が管理済みのコンテンツのみならず、例えば、ニュースフィードやマイクロブログに投稿された文章等、任意の利用者により投稿が行われた任意のコンテンツを収集してもよい。
以下、上記した生成処理を実現する生成装置10が有する機能構成の一例について説明する。図2は、実施形態に係る生成装置の構成例を示す図である。図2に示すように、生成装置10は、通信部20、記憶部30、および制御部40を有する。
続いて、図5を用いて、生成装置10が実行する処理の流れについて説明する。図5は、実施形態にかかる生成装置が実行する生成処理の流れの一例を示すフローチャートである。例えば、生成装置10は、検索対象コンテンツに含まれる文章を検索対象文字列として抽出する(ステップS101)。続いて、生成装置10は、文章を所定の単位に分割する境界を設定する(ステップS102)。そして、生成装置10は、各境界が単語の区切りとなる確率を算出し(ステップS103)、文章から抽出可能な文字列について、境界が単語の区切りとなる確率に基づくスコアを算出する(ステップS104)。その後、生成装置10は、算出したスコアが所定の条件を満たす文字列に基づいて、検索対象コンテンツのインデックスを生成し(ステップS105)、処理を終了する。
上記では、生成装置10による生成処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、生成装置10が実行する生成処理のバリエーションについて説明する。
例えば、生成装置10は、上述した検索以外にも、任意の検索手法を用いた検索処理を実行してもよい。例えば、生成装置10は、検索クエリに対しても、所定の単位ごとに分割する境界を設定し、境界が単語の区切りとなる確率に基づいて、検索クエリから抽出可能な各文字列が単語となる確率を算出し、算出した確率が所定の閾値よりも高い文字列を用いて、インデックスの検索を行ってもよい。また、生成装置10は、インデックスに含まれる文字列と検索クエリから抽出した文字列とのマッチングを行い、インデックスに含まれる文字列が単語となる確率と、検索クエリから抽出した文字列が単語となる確率とに基づいて、検索クエリと検索対象コンテンツとの関連度を示すスコアを算出し、算出したスコアに基づくリスティングや検索処理を実行してもよい。また、生成装置10は、インデックスに含まれる文字列のうち、検索クエリや検索クエリから抽出した文字列と一致する文字列が単語となる確率やスコアの合計値に基づいて、検索結果のリスティングを行ってもよい。
上述した生成装置10は、境界が単語の区切りとなる確率の総乗に基づいて、文字列が単語となる確率を算出した。しかしながら、実施形態は、これに限定されるものではない。例えば、生成装置10は、境界が単語の区切りとなる確率の総和等に基づいて、文字列が単語となる確率を算出してもよい。より具体的には、生成装置10は、境界が単語の区切りとなる確率の対数値の総和等に基づいて、文字列が単語となる確率を算出してもよい。すなわち、生成装置10は、境界が単語の区切りとなる確率に基づいて、文字列が単語となる確率やスコアを算出するのであれば、任意の数式を採用して良い。
また、生成装置10は、インデックスを生成する際に、計算量を削減するための任意の処理を実行して良い。例えば、生成装置10は、2文字以上10文字以下の文字列について、単語となる確率を算出してもよい。また、例えば、生成装置10は、文字数が少ない文字列から順に単語となる確率を算出し、ある文字数の文字列において算出される確率が所定の閾値を下回るようになったら、その文字列よりも文字数が多い文字列については、インデックスの対象から除外してもよい。
また、上述した生成装置10は、検索対象コンテンツの検索を行う際に用いるインデックスの生成処理を行う生成処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、検索対象文字列中に境界を設定し、設定した各境界が単語の区切りとなる確率に基づいて、検索対象文字列から抽出される文字列が単語となる確率を算出するのであれば、任意の処理に用いられてもよい。
また、生成装置10は、任意の形式のインデックスを生成してもよい。例えば、生成装置10は、単語として抽出した各文字列が単語となる確率を要素とするベクトルをインデックスにしてもよい。また、生成装置10は、インデックスに含まれる文字列の数に上限を設定することで、検索処理における時間を短縮してもよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述してきた実施形態に係る生成装置10は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、生成装置10は、検索対象コンテンツに含まれる検索対象文字列を所定の単位ごとに分割する境界が単語の区切りとなる確率に基づいて、境界に挟まれる文字列が単語となる確率を算出する。また、生成装置10は、算出された確率に基づいて、検索対象文字列から単語とする文字列を抽出する。そして、生成装置10は、抽出された単語に基づいて、検索対象コンテンツのインデックスを生成する。
20 通信部
30 記憶部
31 確率算出モデルデータベース
32 検索対象コンテンツデータベース
33 インデックスデータベース
40 制御部
41 収集部
42 境界設定部
43 算出部
44 抽出部
45 生成部
46 検索部
100 コンテンツサーバ
200 端末装置
Claims (15)
- 検索対象に含まれる検索対象文字列を分割する境界が単語の区切りとなる確率と、前記検索対象文字列を分割する境界が単語の区切りとならない確率とに基づいて、前記検索対象文字列から抽出される文字列が単語となる確率を算出する算出部と、
前記算出部により算出された確率に基づいて、前記検索対象文字列から単語とする文字列を抽出する抽出部と、
前記抽出部により抽出された文字列に基づいて、前記検索対象のインデックスを生成する生成部と
を有することを特徴とする生成装置。 - 前記算出部は、前記文字列を一文字ごとに分割する各境界が単語の区切りとなる確率を算出し、算出した確率に基づいて、前記境界に挟まれる文字列が単語となる確率を算出する
ことを特徴とする請求項1に記載の生成装置。 - 前記算出部は、前記文字列を分割する所定の文字又は空白ごとに、当該所定の文字又は空白が単語の区切りとなる確率を算出し、算出した確率に基づいて、前記境界に挟まれる文字列が単語となる確率を算出する
ことを特徴とする請求項1に記載の生成装置。 - 前記算出部は、前記検索対象文字列に含まれる所定の文字列を挟む各境界が単語の区切りとなる確率と、当該所定の文字列をさらに分割する境界が単語の区切りとはならない確率とに基づいて、当該所定の文字列が単語となる確率を算出する
ことを特徴とする請求項1〜3のうちいずれか1つに記載の生成装置。 - 前記算出部は、前記検索対象文字列に含まれる所定の文字列を挟む各境界が単語の区切りとなる確率と、当該所定の文字列をさらに分割する境界が単語の区切りとなる確率を1から減算した値との総乗を、当該所定の文字列が単語となる確率として算出する
ことを特徴とする請求項4に記載の生成装置。 - 前記抽出部は、前記算出部により算出された確率が所定の閾値よりも高い文字列を前記検索対象文字列から抽出する
ことを特徴とする請求項1〜5のうちいずれか1つに記載の生成装置。 - 前記抽出部は、前記算出部により算出された確率が高い方から順に所定の数の文字列を前記検索対象文字列から抽出する
ことを特徴とする請求項1〜6のうちいずれか1つに記載の生成装置。 - 前記生成部は、文字数がより多い文字列を優先的に用いて、前記インデックスを生成する
ことを特徴とする請求項1〜7のうちいずれか1つに記載の生成装置。 - 前記算出部は、前記境界に挟まれる文字列であって、前記検索対象文字列から抽出可能な全ての文字列について、当該文字列が単語となる確率を算出する
ことを特徴とする請求項1〜8のうちいずれか1つに記載の生成装置。 - 前記算出部は、前記境界に挟まれる文字列であって、文字数が所定の閾値以下となる文字列が単語となる確率を算出する
ことを特徴とする請求項1〜9のうちいずれか1つに記載の生成装置。 - 前記生成部は、前記抽出部が抽出した文字列を前記検索対象のインデックスとする
ことを特徴とする請求項1〜10のうちいずれか1つに記載の生成装置。 - 前記算出部は、単語の区切りとなる境界の特徴を学習したモデルを用いて、前記検索対象文字列を所定の単位ごとに分割する境界が単語の区切りとなる確率を算出する
ことを特徴とする請求項1〜11のうちいずれか1つに記載の生成装置。 - 前記生成部は、前記抽出部が抽出した文字列と、当該文字列に含まれる他の文字列とを前記検索対象のインデックスとする
ことを特徴とする請求項1〜12のうちいずれか1つに記載の生成装置。 - 生成装置が実行する生成方法であって、
検索対象に含まれる検索対象文字列を分割する境界が単語の区切りとなる確率と、前記検索対象文字列を分割する境界が単語の区切りとならない確率とに基づいて、前記検索対象文字列から抽出される文字列が単語となる確率を算出する算出工程と、
前記算出工程により算出された確率に基づいて、前記検索対象文字列から単語とする文字列を抽出する抽出工程と、
前記抽出工程により抽出された単語に基づいて、前記検索対象のインデックスを生成する生成工程と
を含むことを特徴とする生成方法。 - 検索対象に含まれる検索対象文字列を分割する境界が単語の区切りとなる確率と、前記検索対象文字列を分割する境界が単語の区切りとならない確率とに基づいて、前記検索対象文字列から抽出される文字列が単語となる確率を算出する算出手順と、
前記算出手順により算出された確率に基づいて、前記検索対象文字列から単語とする文字列を抽出する抽出手順と、
前記抽出手順により抽出された単語に基づいて、前記検索対象のインデックスを生成する生成手順と
をコンピュータに実行させるための生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016221001A JP6746472B2 (ja) | 2016-11-11 | 2016-11-11 | 生成装置、生成方法および生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016221001A JP6746472B2 (ja) | 2016-11-11 | 2016-11-11 | 生成装置、生成方法および生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018077806A JP2018077806A (ja) | 2018-05-17 |
JP6746472B2 true JP6746472B2 (ja) | 2020-08-26 |
Family
ID=62149177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016221001A Active JP6746472B2 (ja) | 2016-11-11 | 2016-11-11 | 生成装置、生成方法および生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6746472B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3980901A1 (en) | 2019-06-07 | 2022-04-13 | Leica Microsystems CMS GmbH | A system and method for processing biology-related data, a system and method for controlling a microscope and a microscope |
JP7368186B2 (ja) * | 2019-10-31 | 2023-10-24 | 株式会社トヨタマップマスター | 情報処理装置、情報処理方法及び情報処理プログラム |
-
2016
- 2016-11-11 JP JP2016221001A patent/JP6746472B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018077806A (ja) | 2018-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180300315A1 (en) | Systems and methods for document processing using machine learning | |
Khusro et al. | On methods and tools of table detection, extraction and annotation in PDF documents | |
CN110019794B (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
US9875301B2 (en) | Learning multimedia semantics from large-scale unstructured data | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
US10353925B2 (en) | Document classification device, document classification method, and computer readable medium | |
US9785704B2 (en) | Extracting query dimensions from search results | |
EP3759616A1 (en) | Training image and text embedding models | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
JP6664599B2 (ja) | 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム | |
Selamat et al. | Word-length algorithm for language identification of under-resourced languages | |
JP6746472B2 (ja) | 生成装置、生成方法および生成プログラム | |
CN111062788A (zh) | 一种基于搜索的电商平台商品推荐方法和装置以及设备 | |
JP2018088051A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20180035477A (ko) | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 | |
CN109753646B (zh) | 一种文章属性识别方法以及电子设备 | |
WO2020035934A1 (ja) | Sns画像トレンド分析システム、sns画像トレンド分析方法、及びプログラム | |
JP6042790B2 (ja) | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム | |
US20140358522A1 (en) | Information search apparatus and information search method | |
JP6196200B2 (ja) | ラベル抽出装置、ラベル抽出方法およびプログラム | |
WO2022262632A1 (zh) | 网页搜索方法、装置及存储介质 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2016045552A (ja) | 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置 | |
JP5461344B2 (ja) | データ分類装置、データ分類方法およびデータ分類プログラム | |
JP7034015B2 (ja) | 選択装置、学習装置、抽出装置、選択方法、学習方法、抽出方法、選択プログラム、学習プログラム、および抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6746472 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |