JP2019008440A - テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 - Google Patents
テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 Download PDFInfo
- Publication number
- JP2019008440A JP2019008440A JP2017122042A JP2017122042A JP2019008440A JP 2019008440 A JP2019008440 A JP 2019008440A JP 2017122042 A JP2017122042 A JP 2017122042A JP 2017122042 A JP2017122042 A JP 2017122042A JP 2019008440 A JP2019008440 A JP 2019008440A
- Authority
- JP
- Japan
- Prior art keywords
- text
- context vector
- context
- content
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明の実施形態に係るテキスト抽出装置は、機械学習済みのNN(Neural Network)を用いて、複数のテキストを含む入力テキスト群(以降、対象テキスト群と称される)の示唆する文脈を定量化する文脈ベクトルを計算する。
Corpus={(S[1],g[S[1]]),(S[2],g[S[2]]),・・・,(S[M],g[S[M]])}
類似度計算部104は、第1の文脈ベクトルに対するM個の第2の文脈ベクトルそれぞれの類似度を計算する。類似度は、ベクトル間の類似性を評価するための任意の指標であってよく、典型的には、コサイン類似度、または正規化された文脈ベクトル間のユークリッド距離である。第1の文脈ベクトルg[T]に対する第i番目の候補テキスト群の第2の文脈ベクトルg[S[i]]のコサイン類似度は、cos(arg(g[T],g[S[i]]))で定義される。iはM以下の任意の自然数である。類似度計算部104は、各候補テキスト群を識別する情報(例えばiの値)に、第1の文脈ベクトルと当該候補テキスト群の第2の文脈ベクトルとの類似度を関連付けて類似度記憶部106に保存する。類似度計算部104は、前述のプロセッサおよびメモリであり得る。
まず、テキスト群入力部101は、対象テキスト群を獲得する(ステップS201)。対象テキスト群は、前述のように様々な手法により獲得され得る。文脈ベクトル計算部102は、機械学習済みのNN 103を用いて、ステップS201において獲得された対象テキスト群の第1の文脈ベクトルを計算する(ステップS202)。
実施形態に係るテキスト抽出装置は、対象テキスト群の示唆する文脈が、関心テキストの示唆する文脈に類似するか否かをチェックするために利用することもできる。かかる変形例では、第2の文脈ベクトルとして関心テキストの文脈ベクトルが使用され、例えば類似度が閾値以上であれば、対象テキスト群の示唆する文脈が、関心テキストの示唆する文脈に類似する、と判定される。関心テキストは、例えばNGワード、またはその他の規制対象となるテキストであり得る。対象テキスト群がかかる関心テキストに類似する文脈を示唆する場合には、コンテンツ配信サービスの運用者に通報したり、当該対象テキスト群の投稿を拒否したり、当該対象テキスト群が投稿済みであればこれを削除したり、投稿したユーザによるコンテンツ配信サービスの利用、例えばサーバアクセスを制限したりしてもよい。
コンテンツの属性情報を用いて、コンテンツに新規コメントとして自動投稿されるコメントを決定したり、当該コンテンツを視聴するユーザによるコメント投稿を支援するためにユーザに提示される投稿可能コメントを決定したり、第1の文脈ベクトルを補正したりしてもよい。コンテンツの属性情報は、コメントの自動投稿を行う、または投稿可能コメントを提示する時間的位置付近でのコンテンツの局所的な特徴(例えば、特定の人物、キャラクタ、モノ、場所などが写っているか、特定の楽曲、メロディー、効果音などが流れているか)、または、その時間的位置がコンテンツ全体のうちどの部分にあたるか(例えば開始直後か、それとも終了間際か)など、であり得る。また、タグ、カテゴリなどのメタデータも、ここでいうコンテンツの属性情報として利用可能である。
実施形態に係るテキスト抽出装置のうち文脈ベクトル計算部およびNNに着目して、文脈ベクトル計算装置を構成することも可能である。この文脈ベクトル計算装置によれば、任意のテキスト群によって形成される文脈を定量化する文脈ベクトルを計算することが可能となる。文脈ベクトルは、例えば、大規模コメントの自動分類、コンテンツの文脈構造の自動分析などの様々な応用例に活用できる可能性がある。
101・・・テキスト群入力部
102・・・文脈ベクトル計算部
103・・・NN
104・・・類似度計算部
105・・・候補テキスト群記憶部
106・・・類似度記憶部
107・・・類似テキスト群探索部
300・・・コメント投稿装置
301,401・・・受信部
302,406・・・送信部
400・・・再生端末
402・・・バッファ
403・・・再生部
404・・・出力部
405・・・ユーザ入力部
501・・・Webサーバ
502・・・コンテンツ配信サーバ
503・・・コメント配信サーバ
Claims (12)
- 複数のテキストを含む対象テキスト群の第1の文脈ベクトルを、機械学習済みのニューラルネットワークを用いて計算する文脈ベクトル計算部と、
それぞれ1以上のテキストを含む複数の候補テキスト群の第2の文脈ベクトルの各々と前記第1の文脈ベクトルとの類似度を計算する類似度計算部と、
前記類似度に基づいて、前記第1の文脈ベクトルに類似する1つ以上の第2の文脈ベクトルにそれぞれ対応する1つ以上の候補テキスト群を探索し、類似テキスト群を得る探索部と
を具備する、テキスト抽出装置。 - 前記文脈ベクトル計算部は、前記対象テキスト群に含まれる複数のテキストの各々を前記ニューラルネットワークに与えてテキスト毎の文脈ベクトルを計算させ、当該テキスト毎の文脈ベクトルを合成することで前記第1の文脈ベクトルを計算する、請求項1に記載のテキスト抽出装置。
- 前記対象テキスト群に含まれるテキストのうち少なくとも1つは、特定のコンテンツの再生に同期して表示される少なくとも1つのコメントから抽出される、請求項1または請求項2に記載のテキスト抽出装置。
- 前記対象テキスト群に含まれるテキストのうち少なくとも1つは、特定のコンテンツの再生に同期して表示される複数のコメントのうち、特定の再生位置を基準に設定されたタイムウィンドウに含まれる位置で表示されるコメントから抽出される、請求項1または請求項2に記載のテキスト抽出装置。
- 前記第1の文脈ベクトルに最も類似する第2の文脈ベクトルに対応する候補テキスト群が複数のテキストを含む場合には、前記探索部は、当該候補テキスト群に含まれるテキスト毎の文脈ベクトルのうち前記第1の文脈ベクトルに最も類似するものをさらに探索し、前記第1の文脈ベクトルに最も類似する文脈ベクトルに対応するテキストを得る、請求項1乃至請求項4のいずれか1項に記載のテキスト抽出装置。
- 前記対象テキスト群に含まれるテキストのうち少なくとも1つは、コンテンツに関連するテキストであって、
前記コンテンツの属性情報が、前記第1の文脈ベクトルを補正するために用いられる、
請求項1乃至請求項5のいずれか1項に記載のテキスト抽出装置。 - コンテンツに関連付けられる複数のテキストを含む対象テキスト群の第1の文脈ベクトルを、機械学習済みのニューラルネットワークを用いて計算する文脈ベクトル計算部と、
それぞれ1以上のテキストを含む複数の候補テキスト群の第2の文脈ベクトルの各々と前記第1の文脈ベクトルとの類似度を計算する類似度計算部と、
前記類似度に基づいて、前記第1の文脈ベクトルに類似する1つ以上の第2の文脈ベクトルにそれぞれ対応する1つ以上の候補テキスト群を探索し、類似テキスト群を得る探索部と、
前記類似テキスト群に含まれるテキストの少なくとも1つを前記コンテンツに関連付けられるコメントとして投稿するために送信する送信部と
を具備する、コメント投稿装置。 - コンテンツに関連付けられる複数のテキストを含む対象テキスト群の第1の文脈ベクトルを、機械学習済みのニューラルネットワークを用いて計算する文脈ベクトル計算部と、
それぞれ1以上のテキストを含む複数の候補テキスト群の第2の文脈ベクトルの各々と前記第1の文脈ベクトルとの類似度を計算する類似度計算部と、
前記類似度に基づいて、前記第1の文脈ベクトルに類似する1つ以上の第2の文脈ベクトルにそれぞれ対応する1つ以上の候補テキスト群を探索し、類似テキスト群を得る探索部と、
前記類似テキスト群に含まれるテキストの少なくとも1つを投稿可能コメントとして、前記コンテンツを再生する再生端末へ送信する送信部と
を具備する、コメント投稿支援装置。 - コンテンツを受信する受信部と、
前記コンテンツを再生する再生部と、
前記コンテンツに関連付けられる複数のテキストを含む対象テキスト群の第1の文脈ベクトルを、機械学習済みのニューラルネットワークを用いて計算する文脈ベクトル計算部と、
それぞれ1以上のテキストを含む複数の候補テキスト群の第2の文脈ベクトルの各々と前記第1の文脈ベクトルとの類似度を計算する類似度計算部と、
前記類似度に基づいて、前記第1の文脈ベクトルに類似する1つ以上の第2の文脈ベクトルにそれぞれ対応する1つ以上の候補テキスト群を探索し、類似テキスト群を得る探索部と、
前記類似テキスト群に含まれるテキストの少なくとも1つを前記コンテンツに関連付けられるコメントとして投稿するために送信する送信部と
を具備する、再生端末。 - コンテンツを受信する受信部と、
前記コンテンツを再生する再生部と、
前記コンテンツに関連付けられる複数のテキストを含む対象テキスト群の第1の文脈ベクトルを、機械学習済みのニューラルネットワークを用いて計算する文脈ベクトル計算部と、
それぞれ1以上のテキストを含む複数の候補テキスト群の第2の文脈ベクトルの各々と前記第1の文脈ベクトルとの類似度を計算する類似度計算部と、
前記類似度に基づいて、前記第1の文脈ベクトルに類似する1つ以上の第2の文脈ベクトルにそれぞれ対応する1つ以上の候補テキスト群を探索し、類似テキスト群を得る探索部と、
前記類似テキスト群に含まれるテキストの少なくとも1つを投稿可能コメントとして、再生された前記コンテンツと共に出力する出力部と、
ユーザによって選択された投稿可能コメントを前記コンテンツに関連付けられるコメントとして投稿するために送信する送信部と
を具備する、再生端末。 - 複数のテキストを含む対象テキスト群の文脈ベクトルを、機械学習済みのニューラルネットワークを用いて計算する文脈ベクトル計算部を具備し、
前記ニューラルネットワークは、複数の学習データを用いて行われた機械学習の結果が設定されていて、
前記複数の学習データは、それぞれ、入力データとしてのテキスト群のペアと、前記テキスト群のペアが類似する文脈を示唆するか、それとも類似しない文脈を示唆するかを表す教師データとを含む、
文脈ベクトル計算装置。 - コンピュータを、
複数のテキストを含む対象テキスト群の第1の文脈ベクトルを、機械学習済みのニューラルネットワークを用いて計算する手段、
それぞれ1以上のテキストを含む複数の候補テキスト群の第2の文脈ベクトルの各々と前記第1の文脈ベクトルとの類似度を計算する手段、
前記類似度に基づいて、前記第1の文脈ベクトルに類似する1つ以上の第2の文脈ベクトルにそれぞれ対応する1つ以上の候補テキスト群を探索し、類似テキスト群を得る手段、
として機能させるためのテキスト抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017122042A JP6337183B1 (ja) | 2017-06-22 | 2017-06-22 | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017122042A JP6337183B1 (ja) | 2017-06-22 | 2017-06-22 | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018089216A Division JP2019008779A (ja) | 2018-05-07 | 2018-05-07 | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6337183B1 JP6337183B1 (ja) | 2018-06-06 |
JP2019008440A true JP2019008440A (ja) | 2019-01-17 |
Family
ID=62487546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017122042A Active JP6337183B1 (ja) | 2017-06-22 | 2017-06-22 | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6337183B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021006886A (ja) * | 2019-06-28 | 2021-01-21 | 株式会社ドワンゴ | コンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラム |
US11853705B2 (en) | 2018-10-18 | 2023-12-26 | Oracle International Corporation | Smart content recommendations for content authors |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020039476A1 (ja) * | 2018-08-20 | 2020-02-27 | 株式会社ソニー・インタラクティブエンタテインメント | メッセージ出力装置、学習装置、メッセージ出力方法、学習方法及びプログラム |
JP7285349B2 (ja) * | 2018-08-20 | 2023-06-01 | 株式会社ソニー・インタラクティブエンタテインメント | メッセージ出力装置、メッセージ出力方法及びプログラム |
CN111159433B (zh) * | 2019-08-14 | 2023-07-25 | 广东小天才科技有限公司 | 一种内容定位方法及电子设备 |
CN115238670B (zh) * | 2022-08-09 | 2023-07-04 | 平安科技(深圳)有限公司 | 信息文本抽取方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003167907A (ja) * | 2001-12-03 | 2003-06-13 | Dainippon Printing Co Ltd | 情報提供方法およびシステム |
US20040030996A1 (en) * | 2000-08-30 | 2004-02-12 | Van Liempd Egidius Petrus Maria | Method and system for personalisation of digital information |
US20070074102A1 (en) * | 2005-09-29 | 2007-03-29 | Reiner Kraft | Automatically determining topical regions in a document |
JP2009070278A (ja) * | 2007-09-14 | 2009-04-02 | Toshiba Corp | コンテンツ類似性判定装置およびコンテンツ類似性判定方法 |
JP2009277099A (ja) * | 2008-05-15 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
JP2015005130A (ja) * | 2013-06-20 | 2015-01-08 | 日本放送協会 | 文書投稿装置、方法及びプログラム |
JP2015211290A (ja) * | 2014-04-24 | 2015-11-24 | 株式会社ドワンゴ | 候補抽出装置、コメント配信システム、候補抽出方法及びプログラム |
JP2017072885A (ja) * | 2015-10-05 | 2017-04-13 | 日本電信電話株式会社 | 情報検索装置、辞書作成装置、方法、及びプログラム |
-
2017
- 2017-06-22 JP JP2017122042A patent/JP6337183B1/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040030996A1 (en) * | 2000-08-30 | 2004-02-12 | Van Liempd Egidius Petrus Maria | Method and system for personalisation of digital information |
JP2003167907A (ja) * | 2001-12-03 | 2003-06-13 | Dainippon Printing Co Ltd | 情報提供方法およびシステム |
US20070074102A1 (en) * | 2005-09-29 | 2007-03-29 | Reiner Kraft | Automatically determining topical regions in a document |
JP2009070278A (ja) * | 2007-09-14 | 2009-04-02 | Toshiba Corp | コンテンツ類似性判定装置およびコンテンツ類似性判定方法 |
JP2009277099A (ja) * | 2008-05-15 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
JP2015005130A (ja) * | 2013-06-20 | 2015-01-08 | 日本放送協会 | 文書投稿装置、方法及びプログラム |
JP2015211290A (ja) * | 2014-04-24 | 2015-11-24 | 株式会社ドワンゴ | 候補抽出装置、コメント配信システム、候補抽出方法及びプログラム |
JP2017072885A (ja) * | 2015-10-05 | 2017-04-13 | 日本電信電話株式会社 | 情報検索装置、辞書作成装置、方法、及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11853705B2 (en) | 2018-10-18 | 2023-12-26 | Oracle International Corporation | Smart content recommendations for content authors |
JP2021006886A (ja) * | 2019-06-28 | 2021-01-21 | 株式会社ドワンゴ | コンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6337183B1 (ja) | 2018-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6337183B1 (ja) | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 | |
US10692506B2 (en) | Keyword determinations from conversational data | |
WO2022121601A1 (zh) | 一种直播互动方法、装置、设备及介质 | |
JP6668245B2 (ja) | 文脈情報に基づいて検索結果を生成するための方法、システム、および媒体 | |
US20240152560A1 (en) | Scene aware searching | |
JP2019212290A (ja) | ビデオを処理する方法及び装置 | |
US9292603B2 (en) | Receipt and processing of user-specified queries | |
US8595375B1 (en) | Segmenting video based on timestamps in comments | |
US11157542B2 (en) | Systems, methods and computer program products for associating media content having different modalities | |
US20130086028A1 (en) | Receiving and processing user-specified queries | |
US10042943B2 (en) | Information processing apparatus, information processing method and program | |
US20130086027A1 (en) | Techniques for the receipt and processing of user-specified queries | |
CN112752121B (zh) | 一种视频封面生成方法及装置 | |
CN106888154B (zh) | 音乐分享方法及系统 | |
US20130086025A1 (en) | Techniques for receiving and processing one or more user-specified queries | |
KR20160032937A (ko) | 영상 재생 장치에 의해 캡쳐된 이미지에 관련된 연관 정보를 휴대용 디바이스에게 제공하는 방법 및 시스템 | |
US20130086026A1 (en) | Techniques relating to receiving and processing user-specified queries | |
JP2004528640A (ja) | 自動ビデオ検索の方法、システム、アーキテクチャ及びコンピュータプログラムプロダクト | |
JP2019008779A (ja) | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 | |
JP2015148701A (ja) | ロボット制御装置、ロボット制御方法及びロボット制御プログラム | |
US20230195785A1 (en) | Generating verified content profiles for user generated content | |
US10743085B2 (en) | Automatic annotation of audio-video sequences | |
JP2015211290A (ja) | 候補抽出装置、コメント配信システム、候補抽出方法及びプログラム | |
US20160247522A1 (en) | Method and system for providing access to auxiliary information | |
US10776421B2 (en) | Music search system, music search method, server device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180410 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180507 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6337183 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |