JP2018067041A - Extraction apparatus and computer program - Google Patents
Extraction apparatus and computer program Download PDFInfo
- Publication number
- JP2018067041A JP2018067041A JP2016203564A JP2016203564A JP2018067041A JP 2018067041 A JP2018067041 A JP 2018067041A JP 2016203564 A JP2016203564 A JP 2016203564A JP 2016203564 A JP2016203564 A JP 2016203564A JP 2018067041 A JP2018067041 A JP 2018067041A
- Authority
- JP
- Japan
- Prior art keywords
- information
- transmission information
- identification information
- similarity
- sender
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 65
- 238000004590 computer program Methods 0.000 title claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims abstract description 149
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 description 41
- 238000004891 communication Methods 0.000 description 32
- 238000012545 processing Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000010365 information processing Effects 0.000 description 8
- 235000013305 food Nutrition 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000877 morphologic effect Effects 0.000 description 7
- 238000012356 Product development Methods 0.000 description 6
- 238000010411 cooking Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000004615 ingredient Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 244000018436 Coriandrum sativum Species 0.000 description 1
- 235000002787 Coriandrum sativum Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、ネットワークコミュニティ上での発信情報を基に、所望の発信者を抽出する抽出装置及びコンピュータを抽出装置として動作させるコンピュータプログラムに関する。 The present invention relates to an extraction apparatus that extracts a desired caller based on transmission information on a network community and a computer program that causes a computer to operate as the extraction apparatus.
商品・サービスの品質及び機能が成熟すると商品・サービスの差別化はデザイン、質感、コンセプトイメージ等の消費者の好みが多岐に亘る要素によるものとなる。多岐に亘る消費者の嗜好に合わせて商品・サービスを開発するに際し、少しでも多くの消費者から支持されるものとすべく消費者の意見を取り入れることが効果的であるとされている。このため消費者からのアンケート、レビュー、コメント等を参考にするのみならず、商品開発の場への参加を募るなどの取り組みが従前より行なわれている。 As the quality and function of products and services mature, the differentiation of products and services depends on a wide variety of consumer preferences such as design, texture, and concept image. In developing products and services that meet a wide range of consumer preferences, it is said that it is effective to incorporate the opinions of consumers so that they can be supported by as many consumers as possible. For this reason, in addition to referring to questionnaires, reviews, comments, etc. from consumers, efforts such as recruiting participation in product development have been made.
特許文献1には、商品に関して事前に登録された会員同士(時には商品開発の運営者も交えた状態で)でのチャットによるアイディア交換の実施、更には、イメージイラスト等の投票を、ネットワークを介して実現するシステムが開示されている。 In Patent Document 1, ideas exchanged by chat between members registered in advance with respect to the product (sometimes with the product development operator), and voting for image illustrations, etc. are also made via the network. A system to be realized is disclosed.
特許文献2には、モニタ商品の商品化を希望する応募者へ、商品開発の場を提供するシステム(モニタハウス)が開示されている。特許文献2で提案されているモニタハウスでは、応募者と、予め登録された会員及びそのモニタ商品の商品化への応援者とのアンケートのやり取りの場、又は商品化後の広告宣伝の依頼の場が提供される。このときアンケートの対象とする会員又は応援者を性別、年齢等の条件で絞ることが可能であることが開示されている。
特許文献1に示したように消費者である人物を対象にアイディア交換、アンケート、投票等を実施する場合、そのアイディア交換の結果、投票結果は、アイディアを出し合った会員がどのような人物であるかによって結果に差異が生じる。したがって特許文献2に開示されているように、商品開発を行なう事業者は、どのような消費者を商品のターゲットとするかに応じてアンケートの対象人物を属性で絞り込むことが広く行われている。
When performing idea exchange, questionnaire, voting, etc. for a person who is a consumer as shown in Patent Document 1, as a result of the idea exchange, the result of the vote is what kind of member the member who shared the idea Depending on whether or not the result is different. Therefore, as disclosed in
しかしながら、開発対象の商品・サービスのターゲットとすべき消費者(需要者)を、性別、年齢、地域、嗜好を表わすキーワード等の属性情報によって絞り込む場合、いくつかの問題によって適切な人物を抽出できない可能性がある。まず、多様化する商品・サービスの開発においては、ターゲットとする消費者の人物像を属性情報で表現するには、その属性情報を膨大な数で分類する必要が生じる。したがって、一般消費者が自己申告でその属性情報を登録することが非常に煩雑となり、正確性が失われる。更に属性情報では各々の興味・関心の強さ、度合いを測ることは困難であり、淡く興味を持つ人物と、強く興味・関心を持つ人物との区別が難しい。したがって属性情報による抽出では、ターゲットとすべき人物像に合致するような人物、つまり対象の商品に本当に興味・関心を持つ人物以外の人物を抽出してしまう可能性がある。また、属性情報には時間的な要素が反映され難い。例えば既に興味を失っている分野のキーワードがその人物の属性情報として登録されたままとなっている場合、その時点では興味・関心を持たなくなっている人物が抽出される可能性がある。 However, when narrowing down the consumers (customers) that should be the target of products and services to be developed based on attribute information such as keywords representing gender, age, region, and preference, it is not possible to extract an appropriate person due to some problems. there is a possibility. First, in the development of diversifying products and services, it is necessary to classify the attribute information into a huge number in order to express the target consumer image with the attribute information. Therefore, it becomes very complicated for a general consumer to register the attribute information by self-report, and accuracy is lost. Furthermore, it is difficult to measure the strength and degree of each interest / interest in the attribute information, and it is difficult to distinguish between a person who is lightly interested and a person who is strongly interested / interested. Therefore, in the extraction based on the attribute information, there is a possibility that a person who matches the person image to be targeted, that is, a person other than a person who is really interested or interested in the target product may be extracted. In addition, it is difficult to reflect temporal elements in the attribute information. For example, if a keyword in a field that has already lost interest remains registered as the attribute information of the person, there is a possibility that a person who is no longer interested or interested at that time may be extracted.
本発明は斯かる事情に鑑みてなされたものであり、所望の人物像に即した人物を適切に抽出することを可能とする抽出装置及びコンピュータプログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and an object thereof is to provide an extraction apparatus and a computer program that can appropriately extract a person in accordance with a desired person image.
本開示に係る抽出装置は、所望の人物像に対応するテキストコンテンツを受け付ける受付部と、複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースを記憶する記憶部と、前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と前記受付部で受け付けたテキストコンテンツとの間の類似度を算出する算出部と、該算出部が算出した類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出する抽出部とを備える。 The extraction apparatus according to the present disclosure associates a reception unit that receives text content corresponding to a desired person image, and a plurality of pieces of transmission information that are respectively transmitted from a plurality of senders, with identification information that identifies each piece of transmission information. A recorded transmission information database, a storage unit for storing a sender identification information database in which sender identification information for identifying each sender of the transmission information is recorded, and transmission using the transmission information database and the sender identification information database A calculation unit that calculates the similarity between the transmission information group transmitted by the caller and the text content received by the reception unit, and the similarity calculated by the calculation unit is equal to or greater than a predetermined level. An extraction unit that extracts caller identification information of the caller from the caller identification information database.
本開示に係る抽出装置は、前記抽出部は、対応する類似度の高さの降順によって前記発信者識別情報をソートする。 In the extraction device according to the present disclosure, the extraction unit sorts the caller identification information in descending order of the corresponding similarity.
本開示に係る抽出装置は、前記抽出部により抽出された発信者識別情報毎に、前記類似度の算出に係る情報、及び該類似度に寄与する複数の発信情報を表示するための表示情報を作成する作成部を更に備える。 The extraction device according to the present disclosure includes, for each caller identification information extracted by the extraction unit, information related to the calculation of the similarity and display information for displaying a plurality of transmission information contributing to the similarity. A creation unit is further provided.
本開示に係る抽出装置は、前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、前記算出部は、前記発信者毎に該発信者が発信した発信情報群を抽出し、抽出された発信情報群から、直近から所定の長さの期間に発信された発信情報群を絞り込み、絞り込まれた発信情報群を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する。 In the extraction device according to the present disclosure, a transmission time of transmission information is recorded in the transmission information database in association with the transmission information, and the calculation unit transmits a transmission transmitted by the caller for each caller. Extracting the information group, narrowing down the transmission information group transmitted in a predetermined length from the extracted transmission information group, and the text content received by the reception unit using the narrowed transmission information group The similarity is calculated.
本開示に係る抽出装置は、前記発信情報データベースには、発信情報の発信時刻が前記発信情報に対応付けて記録されており、前記算出部は、前記発信情報データベースから抽出される発信情報夫々に、発信時刻が類似度の算出時点から近い順に高い数値となる重み付け係数を付与し、付与された重み付け係数を前記発信情報に含まれる言葉の出現回数に乗算し、前記発信者毎に、該発信者が発信した発信情報群に含まれる前記言葉及び該言葉の出現回数を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する。 In the extraction device according to the present disclosure, a transmission time of transmission information is recorded in the transmission information database in association with the transmission information, and the calculation unit is configured to transmit each transmission information extracted from the transmission information database. The transmission time is assigned a weighting coefficient that becomes a higher numerical value in the order from the calculation time of the similarity, the assigned weighting coefficient is multiplied by the number of appearances of words included in the transmission information, and the transmission is performed for each sender. The similarity with the text content received by the reception unit is calculated using the words included in the transmission information group transmitted by the person and the number of appearances of the words.
本開示に係る抽出装置では、前記受付部は複数のテキストコンテンツを共に受け付け、前記算出部は、前記複数のテキストコンテンツ夫々について類似度を算出するか、又は前記複数のテキストコンテンツから導出される特徴を示す情報を用いて類似度を算出する。 In the extraction device according to the present disclosure, the reception unit receives a plurality of text contents together, and the calculation unit calculates a similarity for each of the plurality of text contents, or is derived from the plurality of text contents. The similarity is calculated using the information indicating.
本開示に係る抽出装置では、前記算出部は、前記発信情報又は前記受付部で受け付けたテキストコンテンツ夫々に含まれる言葉と、該言葉に関連する関連語が記録してある関連辞書から抽出される関連語とを用いて類似度を算出する。 In the extraction device according to the present disclosure, the calculation unit is extracted from a related dictionary in which words included in the transmission information or the text content received by the reception unit and related words related to the words are recorded. Similarity is calculated using related terms.
本開示に係るコンピュータプログラムは、複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースに対し読み書きが可能なコンピュータに、前記発信者識別情報を抽出させるコンピュータプログラムであって、前記コンピュータに、所望の人物像に対応するテキストコンテンツを受け付けるステップ、前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と、受け付けたテキストコンテンツとの間の類似度を算出するステップ、算出された類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出するステップを実行させる。 The computer program according to the present disclosure includes a transmission information database in which a plurality of transmission information respectively transmitted from a plurality of senders is recorded in association with identification information for identifying each transmission information, and each sender of the transmission information. A computer program for causing a computer capable of reading and writing to a sender identification information database recording sender identification information to be extracted to extract the sender identification information, the text content corresponding to a desired person image on the computer Calculating the similarity between the transmission information group transmitted by the sender and the received text content for each sender using the transmission information database and the sender identification information database. The caller identification information of the caller whose similarity is equal to or higher than a predetermined level is sent. To execute the steps of extracting from the identification information database.
本開示の抽出装置にあっては、テキストコンテンツに類似する発信情報を発信する発信者の発信者識別情報を抽出する処理によって、テキストコンテンツに合致する所望の人物像に即した人物を適切に抽出することが可能となる。 In the extraction device of the present disclosure, a person in accordance with a desired person image that matches the text content is appropriately extracted by the process of extracting the sender identification information of the sender who transmits the transmission information similar to the text content. It becomes possible to do.
本発明をその実施の形態を示す図面に基づいて具体的に説明する。 The present invention will be specifically described with reference to the drawings showing the embodiments thereof.
図1は、本実施の形態に係る情報処理システムの概要を示す模式図である。情報処理システムは、サーバ装置1と、サーバ装置1に通信接続が可能なクライアント装置2,3とを含んで構成される。サーバ装置1は、複数の一般ユーザによるクライアント装置2を介したチャット、掲示板への書き込み、コメント、レビュー等のテキストコンテンツの投稿が可能なネットワークコミュニティ100を提供するサーバ機能を有する。そしてサーバ装置1は、ネットワークコミュニティ100上での複数の一般ユーザからの発信情報(発言、書き込み、音声、ブログ記事等)Vに基づき、商品開発者である特定ユーザが所望する人物像に合致した一般ユーザを抽出する処理を行なう抽出装置として機能する。
FIG. 1 is a schematic diagram showing an outline of the information processing system according to the present embodiment. The information processing system includes a server device 1 and
図1に示す例においては、商品開発者であるユーザDが、ブームとなっているある特定の食材を利用した独特な商品を開発するにあたって、商品のターゲットとなる一般ユーザの協力を得たいと考える。ネットワークコミュニティ100上のグルメに関するグループにて発言、書き込みを行なっている一般ユーザとして例えばユーザA,B,Cが存在する。ユーザAはその特定の食材を以前から非常に好ましく思っているものの本場の調理人が料理を提供する店、又は本場の地まで旅行に行って食べることを好む人物であるとする。ユーザBは、その特定の食材を含むブームとなっているものに広く興味を持ちつつ、普段から家庭で料理を頻繁に行なう人物であるとする。そしてユーザCは同じくその特定の食材を好むものの外食で楽しむことが多い人物であるとする。これに対し、商品開発者であるユーザDは、ブームとなっている食材に興味を持ち、且つ家庭での調理に馴染むユーザBのような人物の抽出を希望している。
In the example shown in FIG. 1, user D who is a product developer wants to obtain the cooperation of a general user who is the target of a product in developing a unique product using a specific food that has become a boom. Think. For example, there are users A, B, and C as general users who speak and write in a group relating to gourmet on the
このような場合、例えば対象とする特定の食材の名称を属性情報としてユーザを抽出すると、ユーザA及びユーザCを抽出できたとしても、その特定の食材に対して特別な強い関心を有していないユーザBは抽出されない可能性がある。本実施の形態に係る情報処理システムにおいては、属性情報を使用せず、ターゲットとしたいユーザが好みそうなテキストコンテンツSをユーザDからクライアント装置3を介して受け付け、このテキストコンテンツSを用いて抽出を行なう。テキストコンテンツSは、新聞、雑誌又は電子媒体における記事のみならず、音声又は動画をテキスト化したものであってもよい。図1に示す例では例えば、テキストコンテンツSはブームとなっている食材を家庭で栽培し、更に調理して食べる魅力についての記事である。サーバ装置1は、テキストコンテンツSとネットワークコミュニティ100でのユーザA,B,Cからの発信情報Vとに基づいて、ユーザDの所望のターゲットの人物像に近いと思われるユーザBを適切に抽出することができる。更にサーバ装置1がユーザDとユーザBとの間における連絡の契機を提供することにより、ユーザDは商品開発にユーザBの協力を得ることが可能となる。
In such a case, for example, if a user is extracted using the name of a target specific food as attribute information, even if user A and user C can be extracted, the user has a special strong interest in the specific food. There is a possibility that no user B is extracted. In the information processing system according to the present embodiment, the text content S that the user who wants to target is likely to like is received from the user D via the
このような適切な人物の抽出を実現するために情報処理システムにおけるサーバ装置1(抽出装置)は、例えば以下のような構成を有する。図2は、情報処理システムを構成する各装置の内部構成を示すブロック図である。サーバ装置1は、通信媒体4を介してクライアント装置2及び3と通信接続される。
In order to realize such an appropriate person extraction, the server apparatus 1 (extraction apparatus) in the information processing system has the following configuration, for example. FIG. 2 is a block diagram showing an internal configuration of each device constituting the information processing system. The server device 1 is communicatively connected to the
通信媒体4は、LAN41、インターネット等の公衆網42、公衆網42へのアクセスポイント(AP)43、通信キャリアが提供するキャリアネットワーク44及び該キャリアネットワーク44へアクセスするための基地局45を含む。通信媒体4は、サーバ装置1、クライアント装置2,3間を有線又は無線により通信接続する。
The communication medium 4 includes a
サーバ装置1はサーバコンピュータを用い、制御部10、記憶部11、一時記憶部12及び通信部13を備える。制御部10はCPU(Central Processing Unit )、クロック等を用い、記憶部11に記憶されているサーバプログラム11P及び抽出プログラム12Pに基づいた各処理を実行し、汎用サーバコンピュータをコミュニティ提供サーバ及び抽出装置として機能させる。一時記憶部12はDRAM(Dynamic Random Access Memory)等の揮発性メモリを用いて制御部10の処理により生成される情報を一時的に記憶する。
The server device 1 uses a server computer and includes a
記憶部11は、ハードディスクを用いてサーバプログラム11P及び抽出プログラム12Pのほか、制御部10が参照するデータを記憶する。また記憶部11は制御部10により作成されるネットワークコミュニティ100のユーザ情報をユーザ情報(発信者識別情報)DB111として記憶し、ネットワークコミュニティ100上での発信情報Vを発信情報DB112として記憶する。なおユーザ情報DB111及び発信情報DB112は、制御部10により情報の読み書きが可能であればその所在は限定されず、サーバ装置1外の記憶装置に記憶されている構成であってもよい。
The
サーバプログラム11Pは、サーバコンピュータをチャットサーバ、掲示板サーバ又はコンテンツ投稿サーバとしての機能を発揮させるためのサーバ用プログラムである。抽出プログラム12Pは、ユーザの識別情報を抽出するための後述にて説明する処理を制御部10に実行させるためのプログラムである。
The
通信部13は、通信媒体4に含まれるLAN41に接続されているネットワークカードである。制御部10は通信部13により、通信媒体4を介した通信が可能である。例えば制御部10はルータを介して公衆網42経由でクライアント装置2,3との通信接続が可能である。
The
クライアント装置2及びクライアント装置3は、スマートフォン、タブレット端末、デスクトップ型又はラップトップ型のPCを用いる。クライアント装置2,3は、ブックリーダと呼ばれる情報端末、ゲーム機、又はPDA等、通信媒体4を介した通信機能を有している情報端末であれば適用することが可能である。クライアント装置2及びクライアント装置3は基本的に同様の構成部を有し、制御部20(30)、記憶部21(31)、一時記憶部22(32)、表示部23(33)、操作部24(34)、音声入力部25(35)、及び通信部26(36)を備える。符号の相違は使用するユーザの種別の差異に応じたインタフェースの相違に対応する。共通する構成について以下クライアント装置2にて説明を行ない、相違するインタフェースについては後述する。
The
制御部20は、CPU、クロック等を含み、記憶部21に記憶されているクライアントプログラム2Pに基づいた各処理を実行し、汎用コンピュータをクライアント装置2として機能させる。一時記憶部22は、DRAM等の揮発性メモリを用いて制御部20の処理により生成される情報を一時的に記憶する。
The
記憶部21は、ハードディスク又はフラッシュメモリ等の不揮発性メモリを用いる。記憶部21はクライアントプログラム2Pのほか、Webブラウザプログラム等のクライアント用の汎用プログラムを記憶し、更に制御部20の読み書きする各種データを記憶する。
The
クライアントプログラム2Pは、後述するようにクライアント装置2の制御部20に各処理を実行させるプログラムである。クライアントプログラム2Pは、図示しない記録媒体に記録されてあるクライアントプログラムを読取部により読み出し、又は通信部26経由で取得し、記録したものであってもよい(いずれも図示せず)。
The
表示部23は、タッチパネル内蔵型ディスプレイを用いる。制御部20は、クライアントプログラム2Pに基づき、表示部23へテキスト及びアイコン等の画像を含む各種操作画面を表示する。表示部23は、タッチパネル内蔵型でないディスプレイでもよい。
The
操作部24は、表示部23のディスプレイに内蔵されるタッチパネル及びクライアント装置2の筐体に設けられるボタン群を用いる。クライアント装置2がPCである場合、操作部24はキーボード及びマウス等のユーザインタフェースを含む。操作部24は、ユーザによる操作情報を制御部20へ通知する。
The
音声入力部25はマイクロフォンである。制御部20は音声入力部25から音声を入力する。制御部20は、音声入力部25が入力した音声を音声認識によってテキスト化することが可能である。
The
通信部26は、LANケーブルと接続可能なネットワークカードを含んで公衆網42に接続しているか、又は基地局45に接続する通信規格に基づく無線通信モジュール及びAP43への接続に対応する無線通信モジュールを含む。制御部20は通信部26により、通信媒体4経由でサーバ装置1と通信接続が可能である。
The
そしてクライアント装置2、3の内、一般ユーザが使用するクライアント装置2では、クライアントプログラム2Pにより、サーバ装置1から提供されるネットワークコミュニティ100上の掲示板、チャットルームへの接続インタフェース(GUI)が提供される。ネットワークコミュニティ100は例えば、ユーザDが提供している各種商品について公衆網41に広く公開されている情報提供サイトから導かれるアンケートコミュニティであり、ログイン情報を有しているユーザの端末装置2のみが通信接続することが可能としてある。ユーザDのような事業者が使用するクライアント装置3では、アンケートコミュニティにおける種々の情報(アンケート、投票等)の集計結果が提示されるインタフェースが提供される。またクライアント装置3では、ネットワークコミュニティ100を提供するサーバ装置1の運営者との間で後述するような情報交換を実現するインタフェースが含まれる。
Among the
図3は、ユーザ情報DB111の内容例を示す説明図である。ユーザ情報DB111には、ネットワークコミュニティ100におけるユーザを相互に識別するユーザ識別情報(ユーザID)がユーザ名(表示名)、ログイン情報(パスワード等)と対応付けて1つのレコードとして記憶される。つまりユーザ情報DB111は、発信情報Vの発信者を識別する情報のデータベースに対応する。なおログイン情報は、ネットワークコミュニティ100へのログイン情報である。図3の説明図に示す例では、ユーザは一般ユーザと事業者ユーザとに区別されて分別可能なユーザ識別情報が夫々付与されている。図3の例では、一般ユーザには先頭が「0(ゼロ)」で始まる5桁の通し番号であるユーザ識別情報が付与され、事業者ユーザには8万番台の5桁の通し番号であるユーザ識別情報が付与されている。一般ユーザであるユーザA,B,C,Fには更に図3の説明図に示す例のように、ユーザ情報DB111は電子メールアドレス、住所等の連絡先情報、更にはログイン履歴等が記憶されてもよい。そして事業者ユーザであるユーザD,Eに対しても図3の説明図に示す例のように、電子メールアドレス、住所等の連絡先情報、更にはログイン履歴等が記憶されてもよい。更に1レコードには、ユーザの属性情報(性別、年齢(生年月日)、嗜好に関するアンケート結果)が共に記憶されていてもよい。
FIG. 3 is an explanatory diagram showing an example of the contents of the
ネットワークコミュニティ100上での発信情報V、例えばチャット上での発言、掲示板への書き込み、商品レビュー、コメントは、発信情報DB112にその都度記憶される。図4は、発信情報DB112の内容例を示す説明図である。発信情報DB112には、発信情報Vの内容を示すテキストデータ、各発信情報Vを相互に識別する発信情報識別情報、及び夫々の発信者を識別するユーザ識別情報が対応付けて記憶される。そして図4に示すように、発信情報DB112には発信時刻(書き込み、投稿時刻)が対応付けて記憶されてもよい。
The transmission information V on the
次に、サーバ装置1にてリクエストにより所望の人物像に合致する人物のユーザ識別情報を抽出する過程について説明する。図5は、サーバ装置1による抽出処理の手順の一例を示すフローチャートである。図5のフローチャートに示す処理手順は例えば、次の場合に開始される。まず事業者ユーザであるユーザDがクライアント装置3からネットワークコミュニティ100内にログインする。クライアント装置3の表示部33に表示される事業者用のログイン後のトップページには「抽出依頼」を受け付けるためのインタフェース表示が含まれ、この「抽出依頼」が選択された場合に開始される。又はネットワークコミュニティ100の管理者宛てに、テキストコンテンツSと共に抽出依頼を所定のフォーマットの電子メールが送信された場合にこれを受信するとサーバ装置1が以下の処理を開始してもよい。
Next, a process of extracting user identification information of a person who matches a desired person image by a request in the server apparatus 1 will be described. FIG. 5 is a flowchart illustrating an example of the procedure of extraction processing by the server device 1. The processing procedure shown in the flowchart of FIG. 5 is started in the following case, for example. First, a user D who is a business user logs in to the
クライアント装置3の表示部33には、「抽出依頼」を受け付けるインタフェースが表示される(ステップS301)。インタフェースは例えばWebページであり、アップロードするテキストコンテンツSの選択アイコンが含まれる。その他後述するような詳細な設定ページへのリンク(アイコン)が含まれてもよい。
An interface for accepting an “extraction request” is displayed on the
制御部30は、表示されているインタフェースにてテキストコンテンツSの選択を受け付ける(ステップS302)。制御部30は、選択されたテキストコンテンツSを一般ユーザの抽出要求と共にサーバ装置1へ通信部36からアップロードする(ステップS303)。アップロードはテキストコンテンツSのデータそのものでもよいし、テキストコンテンツSへのリンク情報であってもよい。ステップS303にてクライアント装置3における処理は一旦終了する。
The
サーバ装置1の制御部10は、通信部13によりテキストコンテンツSを受け付ける(ステップS101)。ステップS101において制御部10は、クライアント装置3から送信されたテキストコンテンツSのデータが、記事そのものの文書データではなく、Webページへのリンク情報である場合には、リンク先から文書データをダウンロードする。また、クライアント装置3から送信されたテキストコンテンツSのデータは音声、動画であってもよく制御部10はここでテキスト化する処理を事前に行なうようにしてもよい。
The
制御部10は、受け付けたテキストコンテンツSに対して形態素解析を実施し(ステップS102)、テキストコンテンツSの特徴を示す情報を導出し(ステップS103)、記憶部11又は一時記憶部12に記憶しておく(ステップS104)。ステップS103における特徴を示す情報は例えば、頻出名詞及びその出現回数である。
The
次に制御部10は、記憶部11のユーザ情報DB111から一般ユーザに対応する複数のユーザ識別情報を取得し(ステップS105)、所定の条件に従って1つずつ選択する(ステップS106)。所定の条件とは例えば、ユーザ情報DB111に記録されているユーザ識別情報の全て、又は所定のグループ(掲示板、チャットルーム)に対応付けて記録されているユーザ識別情報等の条件である。その他、記録されている全期間若しくは直近所定期間(例えば1か月、3ヶ月等)を通して発信情報の数が所定数以上であるユーザ、又は直近1ヶ月に発信を行なっているユーザのみのユーザ識別情報等の条件であってもよい。更には所定のワードを含む発信情報を発信しているユーザ、所定期間にて所定ワードを含む発信情報を発信しているユーザのユーザ識別情報の条件であってもよい。
Next, the
制御部10は、選択した1つのユーザ識別情報によって識別されるユーザを発信者とする発信情報V群を発信情報DB112から抽出し(ステップS107)、抽出した発信情報全てに対して形態素解析を実施する(ステップS108)。制御部10は、形態素解析の結果に基づき抽出された発信情報V群に基づき、選択されたユーザ識別情報のユーザから発信される発信情報の特徴を示す情報を導出し(ステップS109)、記憶部11又は一時記憶部12に記憶しておく(ステップS110)。ステップS109における特徴を示す情報とは、ステップS103で導出される特徴の情報と以後のステップS111にて比較することが可能なものであり、例えば場合頻出名詞及びその出現回数である。
The
制御部10は、テキストコンテンツSの特徴を示す情報と抽出した発信情報の特徴を示す情報とを比較し、類似度を算出し、ユーザ識別情報と対応付けて算出した類似度を記憶部11又は一時記憶部12に記憶する(ステップS111)。類似度は例えば、所定の出現回数以上の名詞を各成分とするベクトル化したもの同士でコサイン類似度を算出するか、又はユークリッド距離を算出して求める。類似度の算出はこれに限られず、自然言語処理にて言葉同士の類似度、関連度等を判断するための公知発明を利用してもよい。
The
次に制御部10は、前記所定の条件に合致するユーザのユーザ識別情報を全て選択したか否かを判断する(ステップS112)。未選択のユーザ識別情報があると判断された場合(S112:NO)、制御部10は処理をステップS106へ戻し、所定の条件に従って次のユーザ識別情報を選択する(S106)。
Next, the
ステップS112にて全て選択したと判断された場合(S112:YES)、制御部10は、類似度が高い順に、該類似度が対応付けられているユーザ識別情報をソートする(ステップS113)。制御部10は、類似度が高い順にソートしたユーザ識別情報を例えば上位30件までに絞り込む等した抽出結果をクライアント装置3へ向けて通信部13から送信し(ステップS114)、抽出処理を終了する。ステップS114の抽出結果の送信は、事業者ユーザのログイン後のトップページから参照可能なWebページ(そのリンク情報)として作成されてから送信されるか、作成されたレポート又はWebページへの事業者ユーザ宛ての電子メールにてリンク情報として送信されるなど種々の方法が考えられる。
If it is determined in step S112 that all have been selected (S112: YES), the
クライアント装置3では、制御部30が通信部36から抽出結果を受信し、受信した抽出結果を出力し(ステップS304)、処理を終了する。ステップS304における抽出結果の出力は、表示部33における表示、又は通信部36からの印刷媒体への印刷データの送信及びこれによる印刷出力が含まれる。また音声出力部を用いた読み上げ音声の出力が含まれてもよい。
In the
なおステップS105〜ステップS110及びステップS112の処理は、ネットワークコミュニティ100上で所定の期間が経過する都度、バッチ処理によって実施しておくようにしてもよい。バッチ処理は例えば1日に一度、発信の頻度が少ない時間帯等、通信負荷及び処理負荷が少ない時間帯に行なわれるとよい。この場合、ユーザ識別情報に対応付けて特徴を示す情報が記憶部11に記憶され、バッチ処理により更新される。そして制御部10はテキストコンテンツSを受け付けた場合に、ユーザ識別情報を1つずつ選択し、選択したユーザ識別情報に対応付けて記憶されている発信情報の特徴を示す情報とテキストコンテンツSの特徴を示す情報との類似度を全ユーザに対して算出する。これにより、例えば異なるテキストコンテンツSを受け付ける都度行なわれるユーザ毎の特徴を示す情報の導出処理の重複を回避することでサーバ装置1における処理負荷を軽減することができ、更にテキストコンテンツSのアップロードからの応答が迅速化する。
Note that the processes in steps S105 to S110 and step S112 may be performed by batch processing each time a predetermined period of time elapses on the
また、テキストコンテンツSの受け付け(ステップS101)と、発信情報DB112の作成との順序は、上述した例には限られない。図5のフローチャートにおいては発信情報DB112が作成されてから、即ち発信情報Vが蓄積されてから、テキストコンテンツSが受け付けられるという順序であった。しかしながら、予めテキストコンテンツSが受け付けられて記憶部11に記憶された状態としておき、制御部10はその後発信される発信情報VについてテキストコンテンツSとの類似度の算出を行なうようにしてもよい。
In addition, the order in which the text content S is accepted (step S101) and the
(実施例)
上述した実施の形態について具体例を挙げて説明する。
図6は、発信情報Vの内容例を示す説明図である。図6は、図1に示したネットワークコミュニティ100の具体例におけるユーザA,B,Cの発信情報(掲示板での会話)Vを時系列に示している。図6に示す例では、最近食べたものとして「パクチー」が挙げられており、昨今ブームとなっている「パクチー」に関する発信情報Vが示されている。
(Example)
The embodiment described above will be described with specific examples.
FIG. 6 is an explanatory diagram showing an example of the content of the transmission information V. FIG. 6 shows transmission information (conversations on the bulletin board) V of users A, B, and C in the specific example of the
図7は、テキストコンテンツSの内容例を示す説明図である。テキストコンテンツSは例えば、「パクチー」についての記事であり、特に家庭においてパクチーを用いた料理を作って食べることの魅力についての記事である。ブームとなっているパクチーの食材を利用した独特な商品(例えば料理キット)を開発する事業者ユーザであるユーザDは、テキストコンテンツSに興味を示す人物へ商品開発への協力を依頼したいと考えているとする。本実施の形態に係る情報処理システムを利用することでユーザDは、事業者ユーザとしてネットワークコミュニティ100へログインした後のトップページから「抽出依頼」を選択してテキストコンテンツSをアップロードさせる操作を行なえばよい。
FIG. 7 is an explanatory diagram illustrating an example of the content of the text content S. The text content S is, for example, an article about “Pakchie”, and in particular, an article about the appeal of making and eating dishes using Pakchi at home. User D who is a business user who develops a unique product (for example, a cooking kit) using the ingredients of booming Pakuchi wants to ask a person who is interested in text content S to cooperate in product development. Suppose that By using the information processing system according to the present embodiment, user D can perform an operation of uploading text content S by selecting “extraction request” from the top page after logging in to network
図6に示した発信情報V群が発信情報DB112に記録されている状態で、図7に示したテキストコンテンツSがアップロードされた場合、サーバ装置1ではテキストコンテンツS(及びリンク先)からは以下のような頻出名詞及びその出現回数のリストが特徴を示す情報として導出される。
(パクチー, 25回)
(うちパク, 10回)
(栽培 , 5回)
(料理 , 3回)
When the text information S shown in FIG. 7 is uploaded in a state where the transmission information V group shown in FIG. 6 is recorded in the
(Pakchi, 25 times)
(Park, 10 times)
(Cultivation, 5 times)
(Cooking, 3 times)
そして図6に示した発信情報V群の内、ユーザ識別情報が「00003」であるユーザ(ユーザ名「userB」)を発信者とする発信情報V群(図6に示す発信情報V以外も含む)からは以下のような頻出名詞及びその出現回数のリストが特徴を示す情報として導出される。
(パクチー,110回)
(うちパク, 25回)
(栽培 , 10回)
(料理 , 5回)
Then, in the transmission information V group shown in FIG. 6, the transmission information V group that includes the user whose user identification information is “00003” (user name “userB”) as the sender (including other than the transmission information V shown in FIG. 6). ), The following list of frequent nouns and their number of appearances is derived as characteristic information.
(Pakchie, 110 times)
(Park, 25 times)
(Cultivation, 10 times)
(Cooking, 5 times)
上述の例では頻出名詞が重複しているため、例えば出現回数が5回以上の頻出名詞によるコサイン類似度で算出される類似度は「1」となる。 In the above example, frequent nouns are duplicated, and thus the similarity calculated by the cosine similarity based on the frequent nouns having the appearance count of 5 or more is “1”, for example.
実施例においてサーバ装置1の制御部10は、図5のフローチャートに示したステップS114における抽出処理の結果の送信の際に、クライアント装置3にて表示するため表示情報(画面データ)を作成し、抽出処理の結果としてその表示情報をクライアント装置3宛てに送信(出力)する。図8は、抽出結果を表示させる表示情報を制御部10が作成する作成処理の手順の一例を示すフローチャートである。
In the embodiment, the
制御部10は、上述の図5のフローチャートに示した手順の内、ステップS113にて類似度が高い順にソートされたユーザ識別情報を例えば上位30件までに絞り込む(ステップS401)。
The
制御部10は、絞り込まれたユーザ識別情報から、類似度が高い順に1つずつ選択し(ステップS402)、選択されているユーザ識別情報のユーザ名をユーザ情報DB111から読み出して表示情報へ文字情報(又は画像)として出力する(ステップS403)。次に制御部10は、選択されているユーザ識別情報に対応付けて記憶されている類似度を表す数値情報を表示情報へ文字情報(又は画像)として出力する(ステップS404)。更に制御部10は、選択されているユーザ識別情報が発信した発信情報V群の内の所定数の発信情報Vを主要コメントとして選抜し、表示情報へ出力する(ステップS405)。
The
ステップS405において制御部10はまず、頻出名詞として特定された名詞をより多く含む発信情報Vを選抜し、更にその内でも、異なる頻出名詞をより多く含む発信情報Vを選抜する。選抜した結果が所定数以内である場合には、制御部10は選抜した結果を主要コメントとしてもよいし、所定数を超える数分だけ選抜された場合には、例えば発信時刻が最近の発信情報Vを優先的に選抜するようにしてもよい。このように制御部10は、抽出された発信情報Vに対し、頻出名詞数、頻出名詞種類数及び発信時刻に応じて更に優先順位を付与し、上位の所定数分だけを主要コメントとして選抜するとよい。
In step S405, the
制御部は上位から所定数のユーザ識別情報を選択したか否かを判断し(ステップS406)、選択していないと判断された場合(S406:NO)、処理をステップS402へ戻して次に類似度が高いユーザ識別情報を選択する。 The control unit determines whether or not a predetermined number of user identification information has been selected from the top (step S406). If it is determined that the user identification information has not been selected (S406: NO), the process returns to step S402, and then similar User identification information with a high degree is selected.
ステップS406にて選択したと判断された場合(S406:YES)、制御部10は、表示情報をWebページのデータ、又はpdf等のイメージ文書のデータとして出力し(ステップS407)、作成処理を終了する。
If it is determined in step S406 that the selection has been made (S406: YES), the
図9は、制御部10により作成された表示情報に基づきクライアント装置3の表示部33にて表示される画面例を示す説明図である。図9に示す例は、図7のテキストコンテンツSに基づき図6に示した発信情報V群を含むネットワークコミュニティ100上の発信情報Vに対して行なった抽出処理の結果(S114)に対応する。そして図8のフローチャートに示した手順により抽出処理の結果として作成される表示情報に基づき表示される画面の一例である。図9の例に示すように、表示情報に基づき表示される画面には、類似度が高い順にユーザ識別情報を表示させ、ユーザ識別情報毎に、類似度の算出結果、及び類似度に寄与する頻出名詞を含む主要な発信情報Vが複数含まれている。
FIG. 9 is an explanatory diagram illustrating a screen example displayed on the
図9に示す例において最も類似度が高いとして抽出されたユーザ識別情報が「00003」(ユーザ名「userB」)であるユーザBは、図6に示した会話例から分かるように、家庭においてパクチーを用いた料理に意欲を持つユーザである。更にユーザBは、図6に示している会話例から、後に「今日は友達とうちパク!」と「うちパク」を実践していることが窺える。つまり、図7のテキストコンテンツSに興味を示しそうなユーザであり、事業者ユーザであるユーザDがイメージする人物像に合致していると言える。このようにイメージする人物像に合いそうなテキストコンテンツSをアップロードするという容易な操作によって、適切な人物のユーザ識別情報の抽出が実現される。この際にユーザDは、属性情報に対応するキーワードの登録等の操作を行なう必要がない。 As shown in the conversation example shown in FIG. 6, the user B whose user identification information extracted with the highest similarity in the example shown in FIG. 9 is “00003” (user name “userB”) It is a user who has an ambition to cook using food. Furthermore, from the conversation example shown in FIG. 6, the user B can later understand that “Today is a friend and my house!” And “My house”. That is, it can be said that the user is likely to be interested in the text content S of FIG. 7 and matches the person image imaged by the user D who is a business user. Thus, extraction of the user identification information of an appropriate person is realized by an easy operation of uploading the text content S that is likely to match the person image to be imaged. At this time, the user D does not need to perform an operation such as registration of a keyword corresponding to the attribute information.
なお図5のフローチャートの説明及び図6〜図9の具体例を参照した説明では、特徴を示す情報を頻出名詞及びその出現回数とした。しかしながら形態素解析の実施結果に基づき導出される特徴の情報はこれに限らない。例えば後述するように、頻出名詞の関連語を登録してある関連辞書を参照して関連語をも含む言葉を各成分としたベクトルを求めて特徴を示す情報としてもよい。又は、頻出名詞のTF−IDF(Term Frequency-Inverse Document Frequency )を算出して特徴を示す情報としてもよい。その他自然言語処理の技術にて行なわれている方法で得られる情報であってもよい。 In the description of the flowchart of FIG. 5 and the description with reference to the specific examples of FIGS. However, the feature information derived based on the result of the morphological analysis is not limited to this. For example, as will be described later, information indicating a feature may be obtained by obtaining a vector including each component of a word including a related word by referring to a related dictionary in which the related word of the frequent noun is registered. Or it is good also as information which calculates TF-IDF (Term Frequency-Inverse Document Frequency) of a frequent noun, and shows the characteristic. Other information obtained by a method performed by a natural language processing technique may be used.
(変形例1)
図4には、発信情報DB112は、発信情報Vに発信時刻を対応付けて記憶する例を示した。変形例1においてサーバ装置1の制御部10による抽出処理では、この発信時刻を用いる。図10は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図10のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図10では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
(Modification 1)
FIG. 4 shows an example in which the
変形例1においてサーバ装置1の制御部10は、ステップS107にて発信情報DB112から抽出された発信情報V群から更に、対応付けられて記憶されている発信時刻に基づき、直近の所定期間に発信された発信情報V群に絞りこむ(ステップS121)。直近の所定期間とは例えば、テキストコンテンツSのアップロード時点(ステップS101にて受け付けた日時)から3ヶ月等である。なお「直近」とは、厳密にテキストコンテンツSを受け付けた時刻を基準とするものとは限らず、過去の発言を除外するという意味で解釈されるべきである。
In the first modification, the
制御部10は、絞り込んだ発信情報V群に含まれる発信情報V夫々について、対応付けられている発信時刻に基づいて時系列に最近のものほど高い数値となる重み付け係数を付与する(ステップS122)。ステップS122において制御部10は例えば、直近1週間以内に発信された発信情報Vには係数1.0、直近1週間超から2週間以内に発信された発信情報Vには係数0.9を付与する。そして直近2週間超から3週間以内に発信された発信情報Vには係数0.8を付与し、直近3週間超から3か月以内に発信された発信情報Vには均等に係数0.5を付与するなどしてもよい。
The
そしてステップS109における特徴を示す情報の導出において制御部10は、発信情報Vから形態素解析により得られた言葉、例えばその名詞の出現回数に、ステップS122で付与された重み付け係数を乗算し、出現回数の総計に重み付けを作用させる。例えば直近1週間以内、直近1週間超から2週間以内、直近2週間超から3週間以内、及び直近3週間超から3ヶ月以内夫々に1回ずつ「パクチー」を含む発信情報Vが発信されている場合、出現回数は「4」ではなく以下のように算出される。なお係数は上述の例(1.0,0.9,0.8,0,5)を用いるがこの限りではないことは勿論である。
(1×1.0+1×0.9+1×0.8+1×0.5)=3.2回
これにより、単に出現回数を発信情報Vの記憶が開始されてからの全期間で同一の重み付けで計数するよりも、できる限り最近の発信情報Vに含まれる言葉をより重く抽出して類似度を算出することが可能になる。この場合、テキストコンテンツSがアップロードされたタイミングと同時期にテキストコンテンツSに興味を示しそうな人物のユーザ識別情報を抽出することが可能になる。
In the derivation of the information indicating the characteristics in step S109, the
(1 × 1.0 + 1 × 0.9 + 1 × 0.8 + 1 × 0.5) = 3.2 times As a result, the number of appearances is simply counted with the same weighting over the entire period after the transmission of the transmission information V is started. Rather than doing so, it is possible to calculate the degree of similarity by extracting words included in the latest outgoing information V as much as possible. In this case, it becomes possible to extract user identification information of a person who is likely to be interested in the text content S at the same time when the text content S is uploaded.
(変形例2)
変形例2では、サーバ装置1の制御部10は複数のテキストコンテンツSを受け付けて抽出処理を行なう。図11は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図11のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図11では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
(Modification 2)
In the second modification, the
変形例2においてサーバ装置1の制御部10は、複数のテキストコンテンツSを受け付ける(ステップS131)。
In the second modification, the
複数のテキストコンテンツSを受け付ける変形例2においては、ステップS103におけるテキストコンテンツSの特徴を示す情報の導出に際し、自然言語処理で用いられる文書における特徴語を導出するTF−IDFを用いることができる。この場合制御部10は、ステップS109にて抽出された発信情報Vの特徴を示す情報を導出するに際し同様にTF−IDFを用いて特徴語及びそのTF−IDFを算出するとよい。なおTF−IDFの算出は必須ではなく、複数のテキストコンテンツS夫々に対して頻出名詞及び出現回数を導出してもよいし、複数のテキストコンテンツSを1つのテキストコンテンツSとみなして頻出名詞及びその出現回数を導出するようにしてもよい。
In
変形例2では、ステップS110にて導出された発信者であるユーザ毎の発信情報V群の特徴を示す情報を記憶した後に制御部10は、ステップS131で受け付けた複数のテキストコンテンツSと、ステップS110にて記憶したユーザ毎の発信情報V群との類似度を算出する(ステップS132)。
In the second modification, after storing the information indicating the characteristics of the transmission information V group for each user who is the caller derived in step S110, the
ステップS132において制御部10は、上述したようにTF−IDFを用いる場合には複数のテキストコンテンツSから導出されるTF−IDFと、ユーザ毎の発信情報V群から導出されるTF−IDFとの間でコサイン類似度を算出するとよい。またステップS132において制御部10は、TF−IDFを用いることなしに、ステップS103にて複数のテキストコンテンツS夫々について特徴を示す情報を導出した場合には、ステップS132では各々についてユーザ毎の発信情報V群との類似度を算出する。更に制御部10は、TF−IDFを用いることなしに、ステップS103にて複数のテキストコンテンツSを1つのテキストコンテンツとみなして特徴を示す情報を導出している場合には、ステップS132ではユーザ毎の発信情報V群から導出される特徴情報との類似度を1つ算出する。
In step S132, the
複数のテキストコンテンツSは、内容(テーマ)がほぼ同一であるテキストコンテンツS同士でもよいし、内容が同一でないテキストコンテンツS同士であってもよい。例えば内容が同一である複数のテキストコンテンツSとしては図7に示した「パクチー」についての記事と、同じように「パクチー」を家庭で食べることについての他の異なる記事との組み合わせである。内容が同一である複数のテキストコンテンツSを用いる場合には、TF−IDFを用いてより重要な特徴語のみで発信情報V群との類似度を測定し、高精度に類似度を算出することが可能となる。 The plurality of text contents S may be text contents S having substantially the same content (theme), or may be text contents S having non-identical contents. For example, the plurality of text contents S having the same contents are a combination of an article about “Pak Chi” shown in FIG. 7 and another different article about eating “Pak Chi” at home. When using a plurality of text contents S having the same content, use TF-IDF to measure the similarity with the transmission information group V using only more important feature words, and calculate the similarity with high accuracy. Is possible.
内容が同一でないテキストコンテンツS同士とは例えば、図7に示した「パクチー」についての記事と、「タイ旅行」についての記事との組み合わせである。内容が同一でない複数のテキストコンテンツSを用いる場合には、制御部10は複数のテキストコンテンツSを1つのテキストコンテンツとみなして頻出名詞及びその出現回数を導出して類似度を算出するか、又は複数のテキストコンテンツS夫々について類似度を算出してもよい。複数のテキストコンテンツS夫々について類似度を算出する場合には、制御部10はいずれの類似度も所定の度合い以上で高いと判断されるユーザ識別情報を抽出するとよい。これにより、異なる記事のいずれにも興味を示すようなユーザを的確に絞り込んで抽出することが可能となる。
The text contents S whose contents are not the same are, for example, a combination of the article about “Pak Chi” and the article about “Thailand travel” shown in FIG. When using a plurality of text contents S whose contents are not identical, the
このように複数のテキストコンテンツSを受け付ける抽出処理により、より精度の高い類似度の算出が可能になったり、所望の人物像に合致するユーザのユーザ識別情報を的確に抽出することが可能になったりすることが期待される。 Thus, extraction processing that accepts a plurality of text contents S makes it possible to calculate the degree of similarity with higher accuracy and accurately extract user identification information of a user that matches a desired person image. It is expected that
(変形例3)
変形例3では、テキストコンテンツS及び発信情報V夫々について、実際に含まれる言葉(頻出名詞)のみならず、関連語も用いて類似度を算出して抽出処理を行なう。変形例3では記憶部11又は外部装置に関連辞書が記憶されており、制御部10から読み出しが可能である。図12は、サーバ装置1による抽出処理の手順の他の一例を示すフローチャートである。また図12のフローチャートに示す処理手順の内、図5のフローチャートに示す処理手順と共通する手順には同一のステップ番号を付して詳細な説明を省略する。更に図12では、クライアント装置3における処理手順については同一であるので図示及び説明を省略する。
(Modification 3)
In
変形例3においてサーバ装置1の制御部10は、ステップS107にて発信情報DB112から抽出された発信情報V群に対して形態素解析を実施し(S108)、発信情報V群に含まれる言葉の関連語を関連辞書から取り出す(ステップS141)。制御部10は、形態素解析により得られる発信情報V群に含まれる言葉のみならず、関連語をも用いて発信情報V群の特徴を示す情報として導出する(ステップS142)。ステップS142について例えば制御部10は、頻出名詞として関連語も同一の出現回数を対応付けて抽出するか、又はTF−IDFを算出するに際し、関連語をも特徴語に含むようにしてもよい。
In the third modification, the
なおここでいう「関連語」は、同義語、共起語等を含む。例えば関連辞書は、「パクチー」の同義語の「コリアンダー」「香菜」等を関連語として含む。また関連辞書は、「パクチー」の関連語として共起語である「タイ料理」、「タイ」等を含んでもよい。 Note that “related words” here include synonyms, co-occurrence words, and the like. For example, the related dictionary includes “Coriander”, “Kana”, etc., which are synonyms of “Pakchi” as related words. The related dictionary may include co-occurrence words “Thai cuisine”, “Thai”, and the like as related words of “Pak Chi”.
そして制御部10は、発信情報V群の特徴を示す情報を記憶した後(S110)、発信情報V群の関連語を用いてテキストコンテンツSと発信情報V群との間の類似度を算出し、ユーザ識別情報と対応付けて算出した類似度を記憶部11又は一時記憶部12に記憶する(S143)。ステップS143にて具体的には、制御部10は、テキストコンテンツSにて所定の出現回数以上の出現する頻出名詞を各成分としてベクトル化したものと、発信情報V群に出現する頻出名詞及び関連語を各成分としてベクトル化したものとの間でコサイン類似度を算出する。ユークリッド距離を算出してもよい。
Then, after storing the information indicating the characteristics of the transmission information V group (S110), the
なお関連語については、ステップS103における受け付けたテキストコンテンツSに対しても、テキストコンテンツSに含まれる言葉の関連語を関連辞書から取り出して該テキストコンテンツSの特徴を示す情報として用いるようにしてもよい。関連語の取り出しは、テキストコンテンツS及び発信情報V群のいずれか一方のみならず、両者に対して行なうようにしてもよい。 As for the related words, for the text content S received in step S103, the related words of the words included in the text content S are extracted from the related dictionary and used as information indicating the characteristics of the text content S. Good. The retrieval of related words may be performed not only on one of the text content S and the transmission information V group but on both.
このように関連語を用いた抽出処理により、本来は同義語であっても使われ方が異なるのみで類似の判断から除外されてしまうような関連語も考慮して類似度を求めたり、関連する他の用語が共通の場合により類似度を高く算出したりすることを可能とする。これにより、所望の人物像に合致するユーザのユーザ識別情報を的確に、精度良く抽出することが可能になる。 In this way, the extraction process using related words determines the degree of similarity in consideration of related words that are excluded from similar judgments even if they are essentially synonyms but are used differently. It is possible to calculate a higher degree of similarity when other terms are common. As a result, it is possible to accurately and accurately extract user identification information of a user that matches a desired person image.
なお、上述の変形例1〜3は、任意の2つ又は全部を組み合わせた形態としても実現することが可能である。 In addition, the above-described modified examples 1 to 3 can also be realized as a form in which any two or all of them are combined.
上述した実施の形態においてネットワークコミュニティ100は、上述にて示したアンケートコミュニティのような参加者が限定されているものに限らず、Twitter(登録商標)、FaceBook(登録商標)、ブログ等の広く公開されるSNSであってもよい。したがって、商品・サービスについてのアンケートのみならず、商品・サービス、更にはテレビジョン放送、ラジオ放送による放送内容等に対する感想等を含む種々の発信情報を用いて広く、ターゲットとなる人物を識別する情報を抽出することも可能である。このとき、発信された情報の内、SNSで使用される「タグ」として意図的に付けられている情報は除外する工程を経てから抽出を行なうようにしてもよい。これにより、「タグ」の内容に左右されず、潜在的にターゲットとなるべき人物を抽出することができる。更には、ネットワークコミュニティ100は商品開発に係るアンケート調査の場であるのみならず、就職活動、転職活動、その他人材マッチングサービスにおける情報交換の場であってもよい。就職活動、転職活動、その他人材マッチングサービスに適用することによって、人事担当者、又はマッチングサービスの管理者がイメージする所望の人物像に合致するユーザの抽出が可能である。
In the above-described embodiment, the
また本開示では、上述したようにネットワークコミュニティ100上での通信媒体を介した発信情報により、適切な人物を抽出する構成とした。しかしながら本願発明はこれに限らず、1つの集音装置にて複数の人物による対話を録音し、録音情報をテキスト化したものを発信情報とするか、又はテキスト化されているインタビュー記事を発信情報としても適用することが可能である。この場合対話に参加した人物、インタビューに答えた人物夫々を識別する識別情報データベースを作成し、夫々からの発言のテキストデータを発信情報として発信情報データベースを作成する。そして所望の人物に対応するテキストテキストコンテンツSを用いて図5のフローチャートの処理を行なう。これにより、ネットワークコミュニティ100のような仮想空間での発信情報のみならず、実空間での対話、又は紙媒体における発信情報から適切な人物の識別情報を抽出することも可能である。
Moreover, in this indication, it was set as the structure which extracts an appropriate person with the transmission information via the communication medium on the
なお、上述のように開示された本実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 It should be understood that the embodiment disclosed above is illustrative in all respects and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the meanings described above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
1 サーバ装置(抽出装置)
10 制御部
11 記憶部
111 ユーザ情報DB(発信者識別情報データベース)
112 発信情報DB(発信情報データベース)
12 一時記憶部
13 通信部
2,3 クライアント装置
20,30 制御部
23,33 表示部
26,36 通信部
1 Server device (extraction device)
10
112 Transmission Information DB (Transmission Information Database)
12
Claims (8)
複数の発信者から夫々発信された複数の発信情報を、各発信情報を識別する識別情報に対応付けて記録した発信情報データベース、及び前記発信情報夫々の発信者を識別する発信者識別情報を記録した発信者識別情報データベースを記憶する記憶部と、
前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と前記受付部で受け付けたテキストコンテンツとの間の類似度を算出する算出部と、
該算出部が算出した類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出する抽出部と
を備えることを特徴とする抽出装置。 A reception unit for receiving text content corresponding to a desired person image;
A transmission information database in which a plurality of transmission information transmitted from a plurality of senders is recorded in association with identification information for identifying each transmission information, and a sender identification information for identifying each sender of the transmission information is recorded. A storage unit for storing the sender identification information database,
For each caller using the caller information database and caller identification information database, a calculation unit that calculates the similarity between the caller information group sent by the caller and the text content received by the receiving unit;
An extraction apparatus comprising: an extraction unit that extracts, from the sender identification information database, sender identification information of a sender whose similarity calculated by the calculation unit is equal to or greater than a predetermined degree.
ことを特徴とする請求項1に記載の抽出装置。 The extraction device according to claim 1, wherein the extraction unit sorts the caller identification information in descending order of corresponding similarity.
を更に備えることを特徴とする請求項1又は2に記載の抽出装置。 For each caller identification information extracted by the extraction unit, a creation unit is further provided for creating display information for displaying information related to the calculation of the similarity and a plurality of transmission information contributing to the similarity. The extraction device according to claim 1, wherein:
前記算出部は、
前記発信者毎に該発信者が発信した発信情報群を抽出し、
抽出された発信情報群から、直近から所定の長さの期間に発信された発信情報群を絞り込み、
絞り込まれた発信情報群を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 In the outgoing information database, the outgoing time of outgoing information is recorded in association with the outgoing information,
The calculation unit includes:
For each sender, extract the outgoing information group sent by the sender,
From the extracted transmission information group, narrow down the transmission information group transmitted in the period of the predetermined length from the latest,
The extraction device according to claim 1, wherein a similarity with the text content received by the reception unit is calculated using the narrowed down transmission information group.
前記算出部は、
前記発信情報データベースから抽出される発信情報夫々に、発信時刻が類似度の算出時点から近い順に高い数値となる重み付け係数を付与し、
付与された重み付け係数を前記発信情報に含まれる言葉の出現回数に乗算し、
前記発信者毎に、該発信者が発信した発信情報群に含まれる前記言葉及び該言葉の出現回数を用いて前記受付部で受け付けたテキストコンテンツとの類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 In the outgoing information database, the outgoing time of outgoing information is recorded in association with the outgoing information,
The calculation unit includes:
Each of the outgoing information extracted from the outgoing information database is given a weighting coefficient that becomes a higher numerical value in order from the time when the outgoing time is closer to the calculation time of the similarity,
Multiply the given weighting coefficient by the number of appearances of the word included in the transmission information,
The similarity with the text content received by the reception unit is calculated for each of the senders using the words included in the transmission information group transmitted by the senders and the number of appearances of the words. Item 2. The extraction device according to Item 1.
前記算出部は、前記複数のテキストコンテンツ夫々について類似度を算出するか、又は前記複数のテキストコンテンツから導出される特徴を示す情報を用いて類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 The reception unit receives a plurality of text contents together,
2. The calculation unit according to claim 1, wherein the calculation unit calculates the similarity for each of the plurality of text contents, or calculates the similarity using information indicating characteristics derived from the plurality of text contents. The extraction device described.
前記発信情報又は前記受付部で受け付けたテキストコンテンツ夫々に含まれる言葉と、該言葉に関連する関連語が記録してある関連辞書から抽出される関連語とを用いて類似度を算出する
ことを特徴とする請求項1に記載の抽出装置。 The calculation unit includes:
Calculating similarity using words included in each of the transmission information or the text content received by the receiving unit and related words extracted from related dictionaries in which related words related to the words are recorded. The extraction device according to claim 1, wherein
前記コンピュータに、
所望の人物像に対応するテキストコンテンツを受け付けるステップ、
前記発信情報データベース及び発信者識別情報データベースを用いて発信者毎に、該発信者が発信した発信情報群と、受け付けたテキストコンテンツとの間の類似度を算出するステップ、
算出された類似度が所定の度合い以上である発信者の発信者識別情報を前記発信者識別情報データベースから抽出するステップ
を実行させることを特徴とするコンピュータプログラム。 A transmission information database in which a plurality of transmission information transmitted from a plurality of senders is recorded in association with identification information for identifying each transmission information, and a sender identification information for identifying each sender of the transmission information is recorded. A computer program that allows a computer that can read and write to the sender identification information database to extract the sender identification information,
In the computer,
Receiving text content corresponding to a desired person image;
Calculating the degree of similarity between the transmission information group transmitted by the sender and the received text content for each sender using the transmission information database and the sender identification information database;
A computer program for executing the step of extracting, from the sender identification information database, sender identification information of a sender whose calculated similarity is a predetermined degree or more.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016203564A JP2018067041A (en) | 2016-10-17 | 2016-10-17 | Extraction apparatus and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016203564A JP2018067041A (en) | 2016-10-17 | 2016-10-17 | Extraction apparatus and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018067041A true JP2018067041A (en) | 2018-04-26 |
Family
ID=62086158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016203564A Pending JP2018067041A (en) | 2016-10-17 | 2016-10-17 | Extraction apparatus and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018067041A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020149451A (en) * | 2019-03-14 | 2020-09-17 | 株式会社ビデオリサーチ | Data processor and data processing method |
JP2021033389A (en) * | 2019-08-16 | 2021-03-01 | 風本 真吾 | Information processing system |
-
2016
- 2016-10-17 JP JP2016203564A patent/JP2018067041A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020149451A (en) * | 2019-03-14 | 2020-09-17 | 株式会社ビデオリサーチ | Data processor and data processing method |
JP2021033389A (en) * | 2019-08-16 | 2021-03-01 | 風本 真吾 | Information processing system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10567580B1 (en) | Sentiment management system | |
Sen et al. | A total error framework for digital traces of human behavior on online platforms | |
US9646096B2 (en) | System and methods for analyzing and improving online engagement | |
US9626545B2 (en) | Semantic note taking system | |
US8756178B1 (en) | Automatic event categorization for event ticket network systems | |
US9659103B2 (en) | Auto-aligning website elements by grouping elements based on a plurality of contextual indicators | |
US20160171588A1 (en) | Providing product advice recommendation | |
JP6217228B2 (en) | Information providing apparatus, program, and information providing system | |
US10984488B1 (en) | Predictive compatibility matching platform | |
US9015158B2 (en) | Contents creating device and contents creating method | |
CN107580704A (en) | Context personage recommends | |
US20140201292A1 (en) | Digital business card system performing social networking commonality comparisions, professional profile curation and personal brand management | |
WO2022005566A1 (en) | Intelligently identifying collaborators for a document | |
US10931620B2 (en) | Calculating efficient messaging parameters | |
US20150347578A1 (en) | System and methods for auto-generating video from website elements | |
US11232522B2 (en) | Methods, systems and techniques for blending online content from multiple disparate content sources including a personal content source or a semi-personal content source | |
US10713283B2 (en) | Data set identification from attribute clusters | |
US9251297B2 (en) | Semantic note taking system | |
JP2013214133A (en) | Information processing device, information processing method, and program | |
KR100478924B1 (en) | Community search service system and method using a plurality of searching criterion | |
JP2020126392A (en) | Selection device, selection method, and selection program | |
JP2018067041A (en) | Extraction apparatus and computer program | |
US20230196247A1 (en) | Communication apparatus, communication method, and program | |
JP7152124B1 (en) | Program, information processing device, method, and system | |
KR101814785B1 (en) | Apparatus and method for providing information corresponding contents input into conversation windows |