JP2021174339A - 検索装置および方法 - Google Patents
検索装置および方法 Download PDFInfo
- Publication number
- JP2021174339A JP2021174339A JP2020078942A JP2020078942A JP2021174339A JP 2021174339 A JP2021174339 A JP 2021174339A JP 2020078942 A JP2020078942 A JP 2020078942A JP 2020078942 A JP2020078942 A JP 2020078942A JP 2021174339 A JP2021174339 A JP 2021174339A
- Authority
- JP
- Japan
- Prior art keywords
- metaword
- primary
- search
- metawords
- target content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
(1)対象コンテンツ(例えば商品)の説明文、紹介記事、ブログ、投稿欄への書き込み、SNS(Social Networking Service)上での書き込みなどのテキスト情報に対して、形態素解析などの手法を用いて、ワードや、フレーズを抽出し、商品の特徴を表すものをタグとして管理する。
(2)音楽コンテンツの場合には、音楽コンテンツに関するテキスト情報(例えば歌詞の内容、紹介記事など)から得られるタグに加えて、例えば、音楽信号のテンポ、音の大きさの時系列変化、周波数スペクトラム成分の時系列変化といった情報、ジャンル情報、歌手の声質や歌い方の特徴などに関係する情報をタグとして管理する。
(3)映像コンテンツの場合には、映像コンテンツに関する記事やシナリオ等のテキスト情報から得られるタグに加えて、映像シーンの色彩の変化、演出、BGMの印象、出演者のキャラクタ設定やセリフ、声優、監督など複数の要素から判定された情報をタグとして管理する。
TF: 文書dd内で出現頻度が高い単語ほど、その文書の特徴を表すのに重要である
IDF: 一般的にどの文書にも登場する「a」とか「the」などの単語は重要ではない
TF−IDFは、「文書ddにおける単語wwの重要度」を表している。このTF−IDFは、単語wと文書ddごとに決まる量なので、TF−IDF(w,d)とすると以下の式で定義される
TF−IDF(w,d)=TF(w,d)×IDF(w)
ここでは、コンテンツ種別ごとに出現するワードの重要度を求めるため、同じコンテンツ属性(pg)の文章は同じ文章として集計してTF−IDFの値を用いている。
TF−IDF(w,pg)=TF(w,pg)×IDF(w)
このようにして求められた重要度をそのコンテンツ種別におけるワードの重要度は数値が大きい程重要度が高いことを示す。図4においては、統計情報の生成X5および重要度スコア値算出X6によってワードの重要度スコア値を算出する。
コンテンツ名A:クッション:1,ふわふわ:1,可愛い:1
図4のタグ処理X7において、入力テキストX1に付加されているコンテンツ名単位で、抽出されたワードの回数を集計する。たとえば上記の抽出結果とは別の「コンテンツ名A」対するテキスト入力のキーワード抽出結果が図6(B)に示すように
コンテンツ名A:ポーチ:1,柔らかい:1,可愛い:1,ふわふわ:2
とし、
sum_count(w)=Σn_count(w)
の計算を行うと(図6(C))、タグ処理X7における集計結果は図6(D)に示すように、つぎのようになる。
コンテンツ名A:ふわふわ:3,可愛い:2,軽い:1,クッション:1,ポーチ:1
さらに図4の集計タグ付け処理X8では、このようコンテンツ名Aに関するキーワードの集計結果に対して、タグとして不要なワード、出現回数が一定値以下のものを削除し(フィルタ処理X9)、残ったワードwに対して、図4の重要度スコア値算出処理X6で計算されたワードの重要度のスコア値weight_score(w)の値を用いたスコア値(word_score(w)=func(weight_score(w),sum_count(w))を用いて(図6(E))、キーワードを決定する。例えば、各キーワードの重要度スコアをword_score(w)=func(weight_score(w)×sum_count(w)と計算し(図6(F))、その値が一定値以上で、該当するキーワードの数が上限数以内のものを情報タグとして付加する。付加する際には、スコア値の高い順に並べたり、付加されるキーワードのスコア値を合計値が1になるように正規化して良い。タグは例えば図6(G)に示すように以下のとおりタグとして出力される(X10)。
コンテンツ名A:ふわふわ:0.53,可愛い:0.32,軽い:0.15
ex.規定一次メタワード(温かい):あたたかい、あったかい、温かい、ホカホカ....(名寄されたワード)
テキスト文の例
(1) 人には教えたくない、本当のおとなの隠れ家。秘密基地のようなワクワク感。
(2) 本当は内緒にしたい隠れ家!落ち着いた雰囲気のおしゃれな空間。
(3) 「遊びなれた人だけが知っている、大人の隠れ家」。そんな秘密の場所にはこだわりがあり、その本質を理解した客のみに扉は開かれる。
これらテキスト文の例においては、規定一次メタワードの関連性の高さを表すスコア値を正規化して大きい順に並べた場合、つぎのようになる。
「大人の隠れ家」
大人:0.241 落ち着いた:0.146 秘密:0.117 わくわく:0.104 内緒:0.08 こだわり:0.07 おしゃれ:0.06 本質:0.02 扉:0.01
このようにしてイディオムメタワードに、一次メタワードおよびそのスコア値を関連付けることができる。
20 イディオムメタワード抽出部
30 一次メタワード決定部
40 検索部
50 表示部
70 学習部
100 検索装置
200 コンピュータシステム
201 記録媒体
202 メタワード抽出部
601 イディオムメタワード辞書
602 イディオムメタワード用タグ記憶部
603 検索対象コンテンツ用タグ記憶部
604 検索対象情報コンテンツデータベース
605 推薦テキスト記憶部
Claims (9)
- 予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段と、
上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段と、
上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段と、
検索入力テキストを入力する検索入力手段と、
上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出する二次メタワード抽出手段と、
上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段と、
上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段と、
上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段と、
上記検索出手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段とを有することを特徴とする検索装置。 - 上記表示対象コンテンツは、上記二次メタワードに関連して記述されたテキストである請求項1記載の検索装置。
- 上記検索対象コンテンツ用一次メタワード関連付けデータは、上記検索対象コンテンツの各々に対して1または複数の一次メタワードと、当該一次メタワードの検索対象コンテンツに関連するスコア値とを有し、
上記二次メタワード用一次メタワード関連付けデータは、上記二次メタワードの各々に対して複数の一次メタワードと、当該一次メタワードの二次メタワードに関連するスコア値とを有し、
上記検索手段は、抽出された二次メタワードについて上記二次メタワード用一次メタワード関連付けデータを参照して複数の一次メタワードの二次メタワードに関連するスコア値を取出し、当該関連付けられた複数の一次メタワードについて上記検索対象コンテンツ用一次メタワード関連付けデータを参照して上記複数の一次メタワードの検索対象コンテンツに関連するスコア値を取出し、上記複数の一次メタワードの二次メタワードに関連するスコア値および上記複数の一次メタワードの検索対象コンテンツに関連するスコア値に基づいて上記検索対象コンテンツを検索する請求項1または2に記載の検索装置。 - 上記二次メタワードセットに含まれる1または複数の二次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用二次メタワード関連付けデータを保持する検索対象コンテンツ用二次メタワード関連付けデータ保持手段と、
上記二次メタワードセットに含まれる1または複数の二次メタワードセットについて上記検索手段を用いて上記検索対象コンテンツについて検索を実行し、検索結果に基づいて上記1または複数の二次メタワードについて上記検索対象コンテンツのスコア値を算出して上記1または複数の二次メタワードおよび対応する検索対象コンテンツに関連するスコア値として上記検索対象コンテンツ用二次メタワード関連付けデータ保持手段に登録する学習手段とをさらに有し、
上記検索手段は、上記二次メタワード抽出手段によって抽出された二次メタワードについて上記学習手段が学習済みの場合には上記検索対象コンテンツ用二次メタワード関連付けデータを参照して検索を行う請求項3記載の検索装置。 - 上記二次メタワード抽出手段は、上記検索入力手段から入力された上記検索入力テキストから上記1または複数の二次メタワードに加え、1または複数の一次メタワードを抽出し、
上記検索手段は、上記関連一次メタワード決定手段によって決定された上記一次メタワードに加え、上記抽出された1または複数の一次メタワードを用いて検索対象コンテンツを検索する請求項1〜4のいずれかに記載の検索装置。 - 上記二次メタワード用関連付けデータ保持手段に保持されている上記二次メタワード用関連付けデータの少なくとも1つの一次メタワードについて、コンテンツ種別、季節、シチュエーション、利用者の年齢・性別といったユーザーに関する属性情報を有するパラメータ群のパラメータに依存してスコア値を変化させる請求項3または4記載の検索装置。
- 上記パラメータは、コンテンツ種別、季節、シチュエーション、および/または利用者の属性である請求項6記載の検索装置。
- 検索対象コンテンツ用一次メタワード関連付けデータ保持手段が、予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持するステップと、
二次メタワード用一次メタワード関連付けデータ保持手段が、上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持するステップと、
表示対象コンテンツ保持手段が、上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持するステップと、
検索入力手段が、検索入力テキストを入力するステップと、
二次メタワード抽出手段が、上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出するステップと、
関連一次メタワード決定手段が、上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定するステップと、
検索手段が、上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索するステップと、
表示対象コンテンツ表示手段が、上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示するステップと、
検索対象コンテンツ表示手段が、上記検索出手段によって取り出された検索対象コンテンツを表示するステップとを有することを特徴とする
検索方法。 - コンピュータを、
予め登録されている一次メタワードセットに含まれる1または複数の一次メタワードを検索対象コンテンツに関連付ける検索対象コンテンツ用一次メタワード関連付けデータを保持する検索対象コンテンツ用一次メタワード関連付けデータ保持手段、
上記一次メタワードセットに含まれる複数の一次メタワードを予め登録されている二次メタワードセットに含まれる二次メタワードに関連付ける二次メタワード用一次メタワード関連付けデータを保持する二次メタワード用一次メタワード関連付けデータ保持手段、
上記二次メタワードセットに含まれる少なくとも1つの二次メタワードに表示対象コンテンツを関連付けて保持する表示対象コンテンツ保持手段、
検索入力テキストを入力する検索入力手段、
上記検索入力手段から入力された上記検索入力テキストから1または複数の二次メタワードを抽出する二次メタワード抽出手段、
上記二次メタワード抽出手段によって抽出された上記1または複数の二次メタワードについて上記二次メタワード用関連付けデータ保持手段を参照して当該1または複数の二次メタワードに関連する一次メタワードを決定する関連一次メタワード決定手段、
上記関連一次メタワード決定手段によって決定された上記一次メタワードを用いて検索対象コンテンツを検索する検索手段、
上記少なくとも1つの二次メタワードに関連して検索対象コンテンツが検索されたときに、当該少なくとも1つの二次メタワードに関連して上記表示対象コンテンツ保持手段に記憶されている上記表示対象コンテンツを表示する表示対象コンテンツ表示手段、および、
上記検索出手段によって取り出された検索対象コンテンツを表示する検索対象コンテンツ表示手段、
として実行させるために使用されるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020078942A JP7037778B2 (ja) | 2020-04-28 | 2020-04-28 | 検索装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020078942A JP7037778B2 (ja) | 2020-04-28 | 2020-04-28 | 検索装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021174339A true JP2021174339A (ja) | 2021-11-01 |
JP7037778B2 JP7037778B2 (ja) | 2022-03-17 |
Family
ID=78279861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020078942A Active JP7037778B2 (ja) | 2020-04-28 | 2020-04-28 | 検索装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7037778B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012043115A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法および文書検索プログラム |
JP2018156420A (ja) * | 2017-03-17 | 2018-10-04 | ヤフー株式会社 | 決定装置、決定方法、及び決定プログラム |
JP2020173611A (ja) * | 2019-04-10 | 2020-10-22 | 富士通株式会社 | 検索処理プログラム、検索処理方法および検索処理装置 |
-
2020
- 2020-04-28 JP JP2020078942A patent/JP7037778B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012043115A (ja) * | 2010-08-18 | 2012-03-01 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法および文書検索プログラム |
JP2018156420A (ja) * | 2017-03-17 | 2018-10-04 | ヤフー株式会社 | 決定装置、決定方法、及び決定プログラム |
JP2020173611A (ja) * | 2019-04-10 | 2020-10-22 | 富士通株式会社 | 検索処理プログラム、検索処理方法および検索処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7037778B2 (ja) | 2022-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936824B2 (en) | Detecting literary elements in literature and their importance through semantic analysis and literary correlation | |
US11048882B2 (en) | Automatic semantic rating and abstraction of literature | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
US9852215B1 (en) | Identifying text predicted to be of interest | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
Serigos | Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish | |
US10922340B1 (en) | Content extraction for literary work recommendation | |
JP2012256282A (ja) | 感性分析システム及びプログラム | |
KR101652433B1 (ko) | Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법 | |
JP5599073B2 (ja) | 感性分析システム及びプログラム | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
Itani | Sentiment analysis and resources for informal Arabic text on social media | |
Makrynioti et al. | PaloPro: a platform for knowledge extraction from big social data and the news | |
Shi et al. | EOSentiMiner: an opinion-aware system based on emotion ontology for sentiment analysis of Chinese online reviews | |
JP7037778B2 (ja) | 検索装置および方法 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Sariki et al. | A book recommendation system based on named entities | |
Wang et al. | CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method | |
Mechti et al. | Machine learning for classifying authors of anonymous tweets, blogs, reviews and social media | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
JP5277090B2 (ja) | リンク作成支援装置、リンク作成支援方法およびプログラム | |
Shahverdian et al. | Text summarization of multi-aspect comments in social networks in persian language | |
JP7324577B2 (ja) | テキスト処理方法及び、テキスト処理装置 | |
Volkova et al. | On Capturing Functional Style of Texts with Part-of-speech Trigrams | |
Rababah et al. | An Enhanced Approach for Using Data Visualization for Sentiment Analysis and Auto Summarization Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210720 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210921 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7037778 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |