JP2014134895A - Program, terminal device, and data processing method - Google Patents
Program, terminal device, and data processing method Download PDFInfo
- Publication number
- JP2014134895A JP2014134895A JP2013001317A JP2013001317A JP2014134895A JP 2014134895 A JP2014134895 A JP 2014134895A JP 2013001317 A JP2013001317 A JP 2013001317A JP 2013001317 A JP2013001317 A JP 2013001317A JP 2014134895 A JP2014134895 A JP 2014134895A
- Authority
- JP
- Japan
- Prior art keywords
- data
- feature vector
- variable
- communication
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、データの特徴を可視化する技術に関し、特に、ネットワーク上のコミュニケーションにおいて送信または受信されるデータの特徴を可視化する技術に関する。 The present invention relates to a technique for visualizing data characteristics, and more particularly to a technique for visualizing data characteristics transmitted or received in communication on a network.
従来から、コミュニケーションを可視化する技術が提案されている。例えば、特許文献1記載の技術では、組織内での生産性向上のため、実際に対面コミュニケーションを観察し、組織に属する個人のコミュニケーションスタイル、組織のコミュニケーションスタイル組織に含まれる会組織のコミュニケーションスタイルを可視化している。具体的には、センサから収集したインタラクションデータに基づいて、個人のコミュニケーションスタイルを2次元マップにプロットすることでコミュニケーションの可視化を実現している。
Conventionally, techniques for visualizing communication have been proposed. For example, in the technique described in
また、特許文献2では、会話の返答に使用される語句の同意または非同意の強度を用いて、コミュニケーション相手との価値観の相違、およびその会話トピックに対する肯定度を推定し、肯定度をアイコンの表示属性に変換することで可視化を実現している。
Moreover, in
また、特許文献3では、組織内もしくは組織間における電子メールのログや会議の記録などの複数の手段によって行なわれたコミュニケーションを記録し、情報取り込み時間という共通指標に統合してコミュニケーションの可視化を実現する技術が開示されている。
Also, in
また、非特許文献1では、携帯電話によるコミュニケーションを送受信履歴から分析し、人間関係をネットワークとして可視化する技術が開示されている。
Non-Patent
しかしながら、特許文献1記載の技術では、実際にコミュニケーションが観測できる状態であることが前提となっているため、SNSやコミュニケーションツール上で発生したコミュニケーション特徴を可視化する目的に適合させることは容易ではない。
However, since the technology described in
また、特許文献2記載の技術では、ユーザ間のコミュニケーションインタラクションにおける価値観の差異評価に特化しているため、SNSなどのコミュニケーション特徴を可視化することには適していない。
Moreover, since the technique described in
また、特許文献3記載の技術では、コミュニケーションの時間的な推移に基づいて組織コミュニケーションの推移を表示し、診断しているが、コミュニケーションの質・状況等、詳細なパラメータを含む分析に適応することができない。さらに、複数の視点での特徴を同時に扱うことができない。この点は、非特許文献1についても同様である。
Moreover, in the technique described in
従来は、SNSにおいて、どのような機能がどのように利用されているのかを可視化するシステムが提案されていないため、ユーザは自分に合ったSNSを事前に推し量ることが容易ではなかった。 Conventionally, since a system for visualizing what functions are used in SNS has not been proposed, it has not been easy for a user to guess in advance an SNS suitable for him.
本発明は、このような事情に鑑みてなされたものであり、SNSなどのコミュニケーションシステムにおいて、どのようなコミュニケーションが行なわれているかをユーザに示すことができるプログラム、端末装置およびデータ処理方法を提供することを目的とする。 The present invention has been made in view of such circumstances, and provides a program, a terminal device, and a data processing method that can indicate to a user what communication is being performed in a communication system such as SNS. The purpose is to do.
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のプログラムは、データの特徴を可視化するプログラムであって、少なくとも一つの変数に基づいてラベリングされたデータを取得する処理と、前記取得したデータの変数をパラメータとして特徴ベクトルを生成する処理と、前記生成した特徴ベクトルを多次元空間にマッピングする処理と、前記マッピングされた特徴ベクトルを画面に表示する処理と、の一連の処理を、コンピュータに実行させることを特徴とする。 (1) In order to achieve the above object, the present invention takes the following measures. That is, the program of the present invention is a program for visualizing data characteristics, and generates a feature vector using a process for acquiring labeled data based on at least one variable and using the acquired data variable as a parameter. The computer is caused to execute a series of processes including a process, a process of mapping the generated feature vector in a multidimensional space, and a process of displaying the mapped feature vector on a screen.
このように、少なくとも一つの変数に基づいてラベリングされたデータの変数をパラメータとして特徴ベクトルを生成し、生成した特徴ベクトルを多次元空間にマッピングし、マッピングされた特徴ベクトルを画面に表示するので、データがどのような特徴を有しているのかを可視化することができる。これにより、ユーザは、SNSやコミュニケーションサービスでどのような特徴を有するデータが取り扱われているのかを視認することが可能となる。 In this way, a feature vector is generated using a variable of data labeled based on at least one variable as a parameter, the generated feature vector is mapped to a multidimensional space, and the mapped feature vector is displayed on the screen. It is possible to visualize what characteristics the data has. Thereby, the user can visually recognize what characteristics data is handled in the SNS and the communication service.
(2)また、本発明のプログラムにおいて、前記変数は、データがどのようなシステム上の機能で取り扱われたかを示し、前記システム上の機能を特徴としたシステム機能特徴ベクトルに基づいて、前記特徴ベクトルを生成することを特徴とする。 (2) In the program of the present invention, the variable indicates what function on the system the data is handled in, and the feature is based on a system function feature vector that characterizes the function on the system. A vector is generated.
このように、変数は、データがどのようなシステム上の機能で取り扱われたかを示し、システム上の機能を特徴としたシステム機能特徴ベクトルに基づいて、特徴ベクトルを生成するので、コミュニケーションで用いられたデータがどのようなシステム機能上で為されたかを表示することが可能となる。例えば、あるひとつのコミュケーションサービスを分析単位とした場合、ユーザが、チャットなどの“SYNCHRONOUS”なコミュニケーションツールに対して多くのコメントを投稿していた場合、該当のサービス上では、“SYNCHRONOUS”なサービスがよく利用されていると把握することが可能となる。このような情報に基づいて、各ユーザのシステム機能ベクトルを生成し、各システム機能特徴の変数の頻度によって視覚化することが可能となる。なお、このとき、分析データ数の違いを軽減するために、全ての分析単位数によって正規化しても良い。 In this way, the variable is used in communication because it indicates what function on the system the data was handled and generates a feature vector based on the system function feature vector that characterizes the function on the system. It is possible to display on what system function the data was created. For example, when a certain communication service is used as an analysis unit, if a user has posted many comments on a “SYNCHRONOUS” communication tool such as chat, “SYNCHRONUS” on the corresponding service. It is possible to grasp that the service is frequently used. Based on such information, a system function vector for each user can be generated and visualized according to the frequency of variables of each system function feature. At this time, in order to reduce the difference in the number of analysis data, normalization may be performed by the number of all analysis units.
(3)また、本発明のプログラムにおいて、前記変数は、データがどのようなシステム上の状況で取り扱われたかを示し、前記システム上の状況を特徴とした状況特徴ベクトルに基づいて、前記特徴ベクトルを生成することを特徴とする。 (3) In the program of the present invention, the variable indicates in what system situation the data is handled, and the feature vector is based on the situation feature vector characterized by the situation on the system. Is generated.
このように、変数は、データがどのようなシステム上の状況で取り扱われたかを示し、システム上の状況を特徴とした状況特徴ベクトルに基づいて、特徴ベクトルを生成するので、コミュニケーションで用いられたデータがどのような状況で為されたかを表示することが可能となる。例えば、分析単位を一つのコミュニケーションサービスとする。ユーザ群が、プライベートチャットなど、第三者に閲覧できないコミュニケーション機能に対して多くのコメントを投稿していた場合、コミュニケーションサービスを特徴づける機能として、プライベートチャットが重要であると把握することができる。このような情報に基づいて、各ユーザの状況特徴ベクトルを生成し、各状況特徴の変数のラベリング結果の頻度によって視覚化することが可能となる。なお、このとき、分析データ数の違いを軽減するために、全ての分析単位数によって正規化しても良い。 In this way, the variable is used in communication because it indicates what kind of system situation the data was handled and generates a feature vector based on the situation feature vector that is characterized by the situation on the system. It is possible to display in what situation the data was made. For example, the analysis unit is one communication service. When a group of users has posted many comments on a communication function that cannot be viewed by a third party, such as a private chat, it can be understood that private chat is important as a function that characterizes the communication service. Based on such information, a situation feature vector for each user can be generated and visualized according to the frequency of the labeling results of the variables of each situation feature. At this time, in order to reduce the difference in the number of analysis data, normalization may be performed by the number of all analysis units.
(4)また、本発明のプログラムにおいて、前記変数は、データがどのようなユーザの態度で取り扱われたかを示し、前記ユーザの態度を特徴としたユーザ態度ベクトルに基づいて、特徴ベクトルを生成することを特徴とする。 (4) In the program of the present invention, the variable indicates what kind of user's attitude the data is handled, and generates a feature vector based on a user attitude vector characterized by the user's attitude. It is characterized by that.
このように、変数は、データがどのようなユーザの態度で取り扱われたかを示し、ユーザの態度を特徴としたユーザ態度ベクトルに基づいて、特徴ベクトルを生成するので、ユーザが投稿したテキストがどのような態度を示唆しているのかを表示することが可能となる。例えば、ユーザが“THANK”や“GREET”に対して多くのコメントを投稿していた場合、該当のコミュニケーションサービス(分析単位)上で社交的な行動が多くなされていると把握することができる。このような情報に基づいて、ユーザ態度ベクトルを生成し、各ユーザ態度スキルベクトル変数の頻度によって視覚化することが可能となる。なお、このとき、分析データ数の違いを軽減するために、全ての分析単位数によって正規化しても良い。 In this way, the variable indicates what kind of user's attitude the data was handled, and the feature vector is generated based on the user attitude vector characterized by the user's attitude. It is possible to display whether such an attitude is suggested. For example, when a user has posted many comments on “THANK” or “GREET”, it can be understood that social actions are being performed on the corresponding communication service (analysis unit). Based on such information, a user attitude vector can be generated and visualized according to the frequency of each user attitude skill vector variable. At this time, in order to reduce the difference in the number of analysis data, normalization may be performed by the number of all analysis units.
(5)また、本発明のプログラムは、データに含まれる重要語を選定し、重要度の高い単語を要素とする重要語ベクトルに基づいて、前記特徴ベクトルを生成することを特徴とする。 (5) The program according to the present invention is characterized in that an important word included in data is selected and the feature vector is generated based on an important word vector having a word having a high importance as an element.
このように、データに含まれる重要語を選定し、重要度の高い単語を要素とする重要語ベクトルに基づいて、特徴ベクトルを生成するので、コミュニケーションで取り扱われたデータの特徴を強調して表示することが可能となる。 In this way, important words included in the data are selected, and feature vectors are generated based on important word vectors whose elements are words of high importance, so the features of data handled in communication are highlighted. It becomes possible to do.
(6)また、本発明のプログラムは、データを入力する処理と、前記入力したデータに対して、少なくとも一つの変数に基づいてラベリングを行なう処理と、を更に含むことを特徴とする。 (6) The program of the present invention further includes a process of inputting data and a process of labeling the input data based on at least one variable.
このように、データを入力する処理と、前記入力したデータに対して、少なくとも一つの変数に基づいてラベリングを行なう処理と、を更に含むので、入力したデータに対するラベリングを自動的に行なうことが可能となる。 As described above, since it further includes a process of inputting data and a process of labeling the input data based on at least one variable, it is possible to automatically label the input data. It becomes.
(7)また、本発明の端末装置は、データの特徴を可視化する端末装置であって、少なくとも一つの変数に基づいてラベリングされたデータを取得するデータ取得部と、前記取得したデータの変数をパラメータとして特徴ベクトルを生成する特徴ベクトル生成部と、前記生成した特徴ベクトルを多次元空間にマッピングするマッピング部と、前記マッピングされた特徴ベクトルを画面に表示する表示部と、を備えることを特徴とする。 (7) Moreover, the terminal device of the present invention is a terminal device that visualizes data characteristics, and includes a data acquisition unit that acquires data that is labeled based on at least one variable, and a variable of the acquired data. A feature vector generation unit that generates a feature vector as a parameter, a mapping unit that maps the generated feature vector to a multidimensional space, and a display unit that displays the mapped feature vector on a screen, To do.
このように、少なくとも一つの変数に基づいてラベリングされたデータの変数をパラメータとして特徴ベクトルを生成し、生成した特徴ベクトルを多次元空間にマッピングし、マッピングされた特徴ベクトルを画面に表示するので、データがどのような特徴を有しているのかを可視化することができる。これにより、ユーザは、SNSやコミュニケーションサービスでどのような特徴を有するデータが取り扱われているのかを視認することが可能となる。 In this way, a feature vector is generated using a variable of data labeled based on at least one variable as a parameter, the generated feature vector is mapped to a multidimensional space, and the mapped feature vector is displayed on the screen. It is possible to visualize what characteristics the data has. Thereby, the user can visually recognize what characteristics data is handled in the SNS and the communication service.
(8)また、本発明の端末装置は、入力したデータに対して、少なくとも一つの変数に基づいてラベリングを行なう識別器を更に含むことを特徴とする。 (8) Moreover, the terminal device of this invention is characterized by further including the discriminator which labels the input data based on at least 1 variable.
このように、入力したデータに対して、少なくとも一つの変数に基づいてラベリングを行なう識別器を更に含むので、入力したデータに対するラベリングを自動的に行なうことが可能となる。 As described above, since the input data further includes a discriminator that performs labeling based on at least one variable, the input data can be automatically labeled.
(9)また、本発明のデータ処理方法は、データの特徴を可視化するデータ処理方法であって、少なくとも一つの変数に基づいてラベリングされたデータを取得するステップと、前記取得したデータの変数をパラメータとして特徴ベクトルを生成するステップと、前記生成した特徴ベクトルを多次元空間にマッピングするステップと、前記マッピングされた特徴ベクトルを画面に表示するステップと、を少なくとも含むことを特徴とする。 (9) Further, the data processing method of the present invention is a data processing method for visualizing data characteristics, the step of acquiring labeled data based on at least one variable, and the variable of the acquired data. The method includes at least a step of generating a feature vector as a parameter, a step of mapping the generated feature vector in a multidimensional space, and a step of displaying the mapped feature vector on a screen.
このように、少なくとも一つの変数に基づいてラベリングされたデータの変数をパラメータとして特徴ベクトルを生成し、生成した特徴ベクトルを多次元空間にマッピングし、マッピングされた特徴ベクトルを画面に表示するので、データがどのような特徴を有しているのかを可視化することができる。これにより、ユーザは、SNSやコミュニケーションサービスでどのような特徴を有するデータが取り扱われているのかを視認することが可能となる。 In this way, a feature vector is generated using a variable of data labeled based on at least one variable as a parameter, the generated feature vector is mapped to a multidimensional space, and the mapped feature vector is displayed on the screen. It is possible to visualize what characteristics the data has. Thereby, the user can visually recognize what characteristics data is handled in the SNS and the communication service.
本発明によれば、データがどのような特徴を有しているのかを可視化することができる。これにより、ユーザは、SNSやコミュニケーションサービスでどのような特徴を有するデータが取り扱われているのかを視認することが可能となる。 According to the present invention, it is possible to visualize the characteristics of data. Thereby, the user can visually recognize what characteristics data is handled in the SNS and the communication service.
以下、本発明の実施形態について図面を参照して説明する。図1は、本実施形態に係るデータ処理システムの概略構成を示す図である。このデータ処理システムは、コミュニケーションデータ収集モジュール5、データベース7、ラベリングモジュール9、特徴ベクトル生成モジュール11、サービス特徴抽出・提示モジュール21、および表示モジュール23から構成されている。コミュニケーションデータ収集モジュール5は、SNS(Social Networking Service)1や、電子メール・通話データ3からデータを収集する。例えば、API(Application Programming Interface)を利用したクローリングなどによりデータを収集することができる。この場合、インターネットラジオ局のAPIや、Twitter(登録商標)のAPIを利用することができる。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram showing a schematic configuration of a data processing system according to the present embodiment. The data processing system includes a communication
入力は、例えば、SNSのある期間の投稿テキスト情報、マルチメディアサービスのコメントデータ、電子メールのインタラクションデータ、チャットデータなどを利用することができる。また、同一のSNS内で、チャット機能やブログ機能などが存在していた場合には同一データとして扱うこともできるし、機能ごとに分割することもできる。このようにして収集されたデータは、データベース7に格納される。
For the input, for example, post text information for a certain period of SNS, comment data of multimedia service, electronic mail interaction data, chat data, and the like can be used. Further, when a chat function, a blog function, or the like exists in the same SNS, it can be handled as the same data, or can be divided for each function. The data collected in this way is stored in the
ラベリングモジュール9は、コミュニケーションデータ収集モジュール5が収集したデータに対して、コーディング(ラベリング)を実施する。このコーディングは、WEB上でGUI(Graphical User Interface)を提供し、オペレータが手作業で行ない、DBに格納することができる。例えば、コーディング規準は関連文献1に記載されているコミュニケーション分類スキームを利用することができる。
The
[関連文献1]
Susan C. Herring(2007), A Faceted Classification Scheme for Computer-Mediated Discourse. Language@Internet.http://www.languageatinternet.org/articles/2007/761
本発明では、以下のような変数に基づいてコーディングを実施する。
[Related Literature 1]
Susan C. Herring (2007), A Faceted Classification Scheme for Computer-Mediated Discourse.Language@Internet.http: //www.languageatinternet.org/articles/2007/761
In the present invention, coding is performed based on the following variables.
[システム特徴変数]
M1(Synchronicity)、M2(Message transmission)、M3(Persistence of transcript)、M4(Size of message buffer)、 M5(Channels of communication)、M6(Anonymous messaging)、M7(Private messaging)、M8(Filtering)、M9(Quoting)、M10(Message format)
これらのシステム特徴変数においては、各変数に対して値を設定することができる。例えば、M1であれば1の際にSynchronus、2の際にAsynchronousといったラベルを付与することができる。
[System feature variables]
M1 (Synchronicity), M2 (Message transmission), M3 (Persistence of transcript), M4 (Size of message buffer), M5 (Channels of communication), M6 (Anonymous messaging), M7 (Private messaging), M8 (Filtering), M9 (Quoting), M10 (Message format)
In these system characteristic variables, a value can be set for each variable. For example, in the case of M1, a label such as “Synchronous” at the time of 1 and “Asynchronous” at the time of 2 can be given.
[状況特徴変数]
S1(Participation Structure)、S2(Participant characteristics)、S3(Purpose)、S4 (Topic or Theme)、S5(Tone)、S6(Activity)、S7(Norms)、S8(Code)
これらの状況特徴変数については、自由記述とすることもできるし、あらかじめ選択肢を与えることもできる。
[Situation feature variable]
S1 (Participation Structure), S2 (Participant characteristics), S3 (Purpose), S4 (Topic or Theme), S5 (Tone), S6 (Activity), S7 (Norms), S8 (Code)
These situation feature variables can be free descriptions or can be given options in advance.
図2は、GUIイメージを示す図である。例えば、図2に示すように、画面の左側にはコミュニケーションデータが表示され、右側にてコーディング結果を入力することができる。入力方法は、チェックボックスで入力をしたり、タッチパネルにて選択したりすることも可能である。コーディング自体は複数人で実施することもできる。その際には、複数の結果を比較し、結果の一致率や、相違のある結果をコーディング者に再提示することもできる。 FIG. 2 is a diagram illustrating a GUI image. For example, as shown in FIG. 2, communication data is displayed on the left side of the screen, and coding results can be input on the right side. The input method can be input with a check box or selected with a touch panel. The coding itself can be performed by multiple people. In that case, it is possible to compare a plurality of results, and to re-present to the coder the result coincidence rate and the different results.
なお、変数は、上記の他にも情景変数、ユーザ態度変数などを自由に設定することも可能である。例えば、情景変数は、季節、時間帯、天候などを利用することができる。例えば、ユーザ態度変数としては話者の態度(提示・賛同、拒絶)などを利用することができ、例えば、以下の関連文献2の技術を利用して以下のように設定することができる。
In addition to the above variables, scene variables, user attitude variables, and the like can be freely set as variables. For example, a season variable, a season, a time zone, a weather, etc. can be utilized. For example, as the user attitude variable, a speaker's attitude (presentation / approval, rejection) or the like can be used. For example, it can be set as follows using the technique of
[関連文献2]
Herring, S. C., Das, A., & Penumarthy, S. (2005). CMC act taxonomy. http://www.slis.indiana.edu/faculty/herring/cmc.acts.html
A1(Inquire)、A2(Request)、A3(Invite)、A4(Desire)、A5(React)、A6(Manage)、A7(Direct)、A8(Accept)、A9(Apologize)、A10(Repair)、A11(Reject)、A12(Elaborate)、A13(Thank)、A14(Inform)、A15(Claim)、A16(Greet)
なお、ラベリングモジュール9にSVM(Support vector machine)などの識別器としての機能を持たせて、コーディングを自動で行なうことも可能である。自動でコーディングを実施する場合には、あらかじめシステムに登録した事前情報を利用したり、事前に学習データを収集・コーディングを実施し、識別器により自動ラベリングを実施したりすることができる。例えば、SNS(A)によって得られた情報がM1―M10まで固定であった場合、SNS(A)によって得られた他のデータについても同様の情報を自動で付与することができる。
[Related Literature 2]
Herring, SC, Das, A., & Penumarthy, S. (2005). CMC act taxonomy. Http://www.slis.indiana.edu/faculty/herring/cmc.acts.html
A1 (Inquire), A2 (Request), A3 (Invite), A4 (Desire), A5 (React), A6 (Manage), A7 (Direct), A8 (Accept), A9 (Apologize), A10 (Repair), A11 (Reject), A12 (Elaborate), A13 (Thank), A14 (Inform), A15 (Claim), A16 (Greet)
The
また、S1−S8などについて、自動でラベリングを付与することもできる。例えば、学習データとして、大量のコミュニケーションデータに対するコーディング結果が蓄積できた場合、識別器により自動でラベルを付与することができる。例えば、コーディング結果S1が付与されたコミュニケーションデータをTFIDFにより特徴ベクトル化し、SVMによりS1の正否を判断することよって、自動でラベルを付与することができる。 In addition, labeling can be automatically applied to S1-S8 and the like. For example, when a coding result for a large amount of communication data can be accumulated as learning data, a label can be automatically given by a discriminator. For example, the communication data to which the coding result S1 is given is converted into a feature vector by TFIDF, and a label can be automatically given by determining whether S1 is correct or not by SVM.
図3は、コーディング(ラベリング)の動作を示すフローチャートである。まず、コミュニケーションデータ収集モジュール5を介してデータを取得し(ステップS1)、識別器があるかどうかを判断する(ステップS2)。識別器がある場合は、ステップS7に遷移する。一方、ステップS2において、識別器が無い場合は、ラベルデータがあるかどうかを判断し(ステップS3)、ラベルデータがある場合は、ステップS6に遷移する。ラベルデータが無い場合は、ラベルデータを取得し(ステップS4)、GUI表示され(ステップS5)、オペレータからラベリングされたデータに基づいて、識別器が生成される(ステップS6)。 FIG. 3 is a flowchart showing an operation of coding (labeling). First, data is acquired via the communication data collection module 5 (step S1), and it is determined whether there is a discriminator (step S2). If there is a discriminator, the process proceeds to step S7. On the other hand, if there is no discriminator in step S2, it is determined whether there is label data (step S3). If there is label data, the process proceeds to step S6. If there is no label data, the label data is acquired (step S4), displayed on the GUI (step S5), and a discriminator is generated based on the data labeled by the operator (step S6).
ここで、識別機は、例えば、“Support Vector Machine”を利用してラベルAであるかどうかを識別する場合、ラベルAが付与されたテキストデータ群から重要語を抽出し、重要語の頻度に基づいて特徴ベクトル化する(例えば、TF/IDFに基づくBag of Words)。ラベルAが付与された学習データ群とその特徴ベクトル群を正データ、ラベルデータAが付与されていない学習データとその特徴ベクトル群を負データとして学習に利用することで、ラベルAであるかどうかの識別器を生成することができる。そして、ラベルが付与されて(ステップS7)、終了する。 Here, for example, in the case of discriminating whether or not the label A is using the “Support Vector Machine”, the discriminator extracts an important word from the text data group to which the label A is given, and determines the frequency of the important word. Based on the feature vector (for example, Bag of Words based on TF / IDF). Whether or not it is label A by using the learning data group to which the label A is assigned and its feature vector group as positive data, the learning data to which the label data A is not assigned and its feature vector group as negative data for learning Discriminators can be generated. Then, a label is given (step S7), and the process ends.
図1において、特徴ベクトル生成モジュール11は、状況特徴スキル抽出機能13と、システム機能スキル抽出機能15と、ユーザ態度スキル抽出機能17と、重要語抽出機能19とを備えており、コーディング結果とコミュニケーションデータに基づいて、コミュニケーションデータを特徴量化する。例えば、入力したコーディング結果は、各変数の入力値をパラメータとして、多次元ベクトルとして表現することができる。例えば、システム機能特徴、状況特徴、ユーザ態度特徴をベクトルとして抽出することができる。また、これらのベクトルを一つにまとめて特徴ベクトルとして抽出することもできる。さらに、蓄積されたコミュニケーションデータより、TFIDF法に基づいて重要語を選定し、重要度の高い単語をベクトルの要素として、データ中の各要素となった単語の頻度を計算することによって、コミュニケーションデータをベクトル化することができる。
In FIG. 1, the feature vector generation module 11 includes a situation feature skill extraction function 13, a system function
図4は、特徴ベクトル生成モジュールの動作を示すフローチャートである。まず、コーディング結果とコミュニケーションデータを入力する(ステップT1)。次に、システム機能特徴ベクトルを抽出する(ステップT2)。次に、状況特徴ベクトルを抽出する(ステップT3)。次に、ユーザ態度ベクトルを抽出する(ステップT4)。次に、重要語ベクトルを抽出する(ステップT5)。そして、抽出したベクトルを統合して(ステップT6)、終了する。次に、上記のようにベクトルを抽出する処理について説明する。 FIG. 4 is a flowchart showing the operation of the feature vector generation module. First, a coding result and communication data are input (step T1). Next, a system function feature vector is extracted (step T2). Next, a situation feature vector is extracted (step T3). Next, a user attitude vector is extracted (step T4). Next, an important word vector is extracted (step T5). Then, the extracted vectors are integrated (step T6), and the process ends. Next, processing for extracting a vector as described above will be described.
[システム機能ベクトル抽出処理]
各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、コミュニケーションデータがどのようなシステム機能上で為されたかを特徴として抽出する。例えば、あるひとつのコミュケーションサービスを分析単位とした場合、ユーザが“SYNCHRONOUS”なコミュニケーションツール(チャットなど)に対して多くのコメントを投稿していた場合、該当のサービス上では、“SYNCHRONOUS”なサービスがよく利用されていると把握することができる。この情報に基づいて、ユーザのシステム機能ベクトルを生成する。
[System function vector extraction processing]
Based on the label data assigned to the text obtained from each category, what kind of system function the communication data is performed on is extracted as a feature. For example, when a certain communication service is used as an analysis unit, if a user has posted many comments on a “SYNCHRONOUS” communication tool (such as chat), “SYNCHRONUS” on the corresponding service. It can be understood that the service is often used. Based on this information, a user system function vector is generated.
図5は、各システム機能特徴変数の頻度を表わした図である。このように視覚化する場合、分析データ数の違いを軽減するために、全ての分析単位数で正規化することもできる。また、必ずしもサービス単位で処理を実施する必要はなく、あるサービス内で発生したマクロなコミュニケーションデータを一つの分析単位としても良い。 FIG. 5 is a diagram showing the frequency of each system function characteristic variable. When visualizing in this way, in order to reduce the difference in the number of analysis data, normalization can be performed for all the number of analysis units. Further, it is not always necessary to execute processing in service units, and macro communication data generated in a certain service may be used as one analysis unit.
図6は、システム機能ベクトル抽出処理を示すフローチャートである。まず、ラベルデータを取得し(ステップP1)、要素数をカウントする(ステップP2)。次に、すべてのシステム機能変数について、カウントしたかどうかを判断し(ステップP3)、すべてのシステム機能変数について、カウントしていない場合は、ステップP2に遷移する。すべてのシステム機能変数について、カウントした場合は、全ての分析単位数で正規化を行なって(ステップP4)、ベクトルを生成する(ステップP5)。 FIG. 6 is a flowchart showing system function vector extraction processing. First, label data is acquired (step P1), and the number of elements is counted (step P2). Next, it is determined whether all system function variables have been counted (step P3). If all system function variables have not been counted, the process proceeds to step P2. When all system function variables are counted, normalization is performed for all the number of analysis units (step P4), and a vector is generated (step P5).
[状況特徴ベクトル抽出処理]
各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、コミュニケーションがどのような状況で為されたかを特徴として抽出する。例えば、分析単位を一つのコミュニケーションサービスとした場合を考える。ユーザ群が、第三者に閲覧できないコミュニケーション機能(プライベートチャットなど)に対して多くのコメントを投稿していた場合、コミュニケーションサービスを特徴づける機能として、プライベートチャットが重要であると把握することができる。この情報に基づいて、ユーザの状況特徴ベクトルを生成する。
[Situation feature vector extraction processing]
Based on the label data assigned to the text obtained from each category, the situation in which the communication is performed is extracted as a feature. For example, consider the case where the analysis unit is one communication service. When a group of users has posted many comments on communication functions (private chat etc.) that cannot be viewed by third parties, it can be understood that private chat is important as a function that characterizes communication services. . Based on this information, a situation feature vector of the user is generated.
図7は、各状況特徴変数のラベリング結果の頻度を表わした図である。このように視覚化する場合、分析データ数の違いを軽減するために、全ての分析単位数で正規化することもできる。例えば、S2等、事前に要素が設定できない項目については、ユーザが利用しているSNS・コミュニティの年齢や、性別分布を事前に抽出し、パターン登録することもできる。例えば、SNS1でのコミュニティが女性、30代のみのコミュニティであった場合をパターンPAT1として登録し、SNS2でのコミュニティが男女比率7:3、年齢分布として、20代:30代:40代=3:3:4をパターン2として登録することで頻度計算を実施することができる。
FIG. 7 is a diagram showing the frequency of the labeling result of each situation feature variable. When visualizing in this way, in order to reduce the difference in the number of analysis data, normalization can be performed for all the number of analysis units. For example, for items such as S2 for which elements cannot be set in advance, the age and gender distribution of the SNS / community used by the user can be extracted in advance and registered as a pattern. For example, a case where the community at SNS1 is a woman and a community only in their 30s is registered as a pattern PAT1. : 3: 4 can be registered as
図8は、状況特徴ベクトル抽出処理を示すフローチャートである。まず、ラベルデータを取得し(ステップQ1)、パターンの登録を行なう(ステップQ2)。次に、要素数をカウントし(ステップQ3)、すべての状況変数について、カウントしたかどうかを判断する(ステップQ4)。すべての状況変数について、カウントしていない場合は、ステップQ3に遷移する一方、すべてのシステム機能変数について、カウントした場合は、全ての分析単位数で正規化を行なって(ステップQ5)、ベクトルを生成する(ステップQ6)。 FIG. 8 is a flowchart showing the situation feature vector extraction process. First, label data is acquired (step Q1), and a pattern is registered (step Q2). Next, the number of elements is counted (step Q3), and it is determined whether all the status variables have been counted (step Q4). If all the status variables are not counted, the process proceeds to step Q3. On the other hand, if all the system function variables are counted, normalization is performed with all the number of analysis units (step Q5), and the vector is changed. Generate (step Q6).
[ユーザ態度ベクトル抽出処理]
各カテゴリから得られたテキストに対して付与されたラベルデータに基づいて、ユーザが投稿したテキストがどのような態度を示唆しているのかを特徴として抽出する。例えば、ユーザが“THANK”や“GREET”に対して多くのコメントを投稿していた場合、該当のコミュニケーションサービス(分析単位)上で社交的な行動が多くなされていると把握することができる。この情報に基づいて、ユーザの態度ベクトルを生成する。
[User attitude vector extraction processing]
Based on the label data given to the text obtained from each category, what kind of attitude the text posted by the user suggests is extracted as a feature. For example, when a user has posted many comments on “THANK” or “GREET”, it can be understood that social actions are being performed on the corresponding communication service (analysis unit). Based on this information, a user attitude vector is generated.
図9は、各ユーザ態度スキルベクトル変数の頻度を表わした図である。このように視覚化する場合、分析データ数の違いを軽減するために、全ての分析単位数で正規化することもできる。 FIG. 9 is a diagram showing the frequency of each user attitude skill vector variable. When visualizing in this way, in order to reduce the difference in the number of analysis data, normalization can be performed for all the number of analysis units.
図10は、ユーザ態度ベクトル抽出処理を示すフローチャートである。まず、ラベルデータを取得し(ステップR1)、要素数をカウントする(ステップR2)。次に、すべてのユーザ態度変数について、カウントしたかどうかを判断し(ステップR3)、すべてのユーザ態度変数について、カウントしていない場合は、ステップR2に遷移する。すべてのユーザ態度変数について、カウントした場合は、全ての分析単位数で正規化を行なって(ステップR4)、ベクトルを生成する(ステップR5)。 FIG. 10 is a flowchart showing the user attitude vector extraction process. First, label data is acquired (step R1), and the number of elements is counted (step R2). Next, it is determined whether all user attitude variables have been counted (step R3). If all user attitude variables have not been counted, the process proceeds to step R2. When all the user attitude variables are counted, normalization is performed with all the analysis unit numbers (step R4), and a vector is generated (step R5).
図1において、サービス特徴抽出・提示モジュール21は、特徴ベクトル生成モジュール11によって作成された特徴ベクトルに基づいて、多次元空間上へマッピングする。例えば、主成分分析を適用し、第1主成分・第2主成分を表現軸として利用することで2次元平面上のプロットとして表現することができる。また、第3主成分を加えることで三次元表示が可能となる。また、そのほかにも、SOM(Self-Organizing Map)などの可視化技術を利用することが可能である。
In FIG. 1, the service feature extraction /
図11は、特徴ベクトルをクラスタリングによってグルーピングする様子を示す図である。グルーピングの最大枠100の範囲内で、複数のグループ101が形成されている。各グループ101には、特徴ベクトル102が少なくとも1つ含まれている。また、特徴ベクトル102のように、分類の基準によって、異なる特徴を有する特徴ベクトルは、異なるグループに属することとなる。図11に示すように、特徴ベクトルによって表現されたコミュニケーションデータは、さらにクラスタリング手法を適用することによって、グルーピングして表示することが可能である。クラスタリング方式は、例えば、K−means法などにより分類することができる。画面上でプロットをクリックすることによって、各SNS上のコミュニケーションデータの分類結果を閲覧することができる。なお、この処理は、主成分分析を適用する前にも実施することができる。
FIG. 11 is a diagram illustrating a state in which feature vectors are grouped by clustering. A plurality of
図12は、特徴ベクトルを階層的に可視化した様子を示す図である。図12では、グルーピングの最大枠200の範囲内で、最上位の階層201で複数のグループ206、207、220が形成されている。最上位の各グループ206、207、220は、それぞれ第2階層のグループ202、203、204を有している。第2階層のグループ202には、特徴ベクトル208、209が含まれており、さらに特徴ベクトル208、209は、第3階層のグループ210、211を有している。第2階層のグループ203、204も同様である。すなわち、第2階層のグループ214、215は、それぞれ、第3階層のグループ212、213を有している。また、第2階層のグループ218、219は、それぞれ、第3階層のグループ216、217を有している。
FIG. 12 is a diagram illustrating a state in which feature vectors are visualized hierarchically. In FIG. 12, a plurality of
図12に示すように、サービス特徴抽出・提示モジュール21は、システム特徴変数による特徴ベクトル、状況特徴変数による特徴ベクトル、コミュニケーションデータの重要語に基づく特徴ベクトルについて、階層的に可視化することも可能である。図12では、システム特徴変数による空間を第1の空間としているが、順番は可変である。さらに、コミュニケーションデータの重要語に基づく特徴ベクトルについては、クラスタリングの結果に基づいて、代表的な重要語を空間上に表示することもできる。
As shown in FIG. 12, the service feature extraction /
図13は、サービス特徴抽出・提示モジュールの動作を示すフローチャートである。まず、特徴ベクトルを抽出し(ステップV1)、K−means法における次元圧縮を行なうかどうかを判断する(ステップV2)。次元圧縮を行なわない場合は、ステップV5に遷移する一方、次元圧縮を行なう場合は、主成分分析を行ない(ステップV3)、第N主成分を抽出する(ステップV4)。次に、クラスタリングを行ない(ステップV5)、クラスタリング結果を可視化するために表示処理を行なう(ステップV6)。次に、すべての特徴ベクトルについて処理したかどうかを判断し(ステップV7)、すべての特徴ベクトルについて処理していない場合は、ステップV1に遷移する。一方、すべての特徴ベクトルについて処理した場合は、代表的な重要語を抽出し(ステップV8)、抽出した重要語に基づく特徴ベクトルを空間上に表示する処理を行なって(ステップV9)、終了する。 FIG. 13 is a flowchart showing the operation of the service feature extraction / presentation module. First, a feature vector is extracted (step V1), and it is determined whether or not to perform dimension compression in the K-means method (step V2). If dimensional compression is not performed, the process proceeds to step V5. On the other hand, if dimensional compression is performed, principal component analysis is performed (step V3), and the Nth principal component is extracted (step V4). Next, clustering is performed (step V5), and display processing is performed to visualize the clustering result (step V6). Next, it is determined whether or not all feature vectors have been processed (step V7). If all feature vectors have not been processed, the process proceeds to step V1. On the other hand, when all the feature vectors have been processed, representative important words are extracted (step V8), and a feature vector based on the extracted important words is displayed on the space (step V9), and the process ends. .
以上説明したように、本実施形態によれば、実際にデータを取得することが困難なSNSに対してもコミュニケーション状況を可視化することができため、SNS上でどのようなコミュニケーションが行なわれているのかを示す情報をユーザに提供することが可能となる。その結果、ユーザは、自身に適したSNSを容易に選択することが可能となる。また、本実施形態によれば、従来技術では実現できなかった、複数の観点での特徴量(システム変数・状況変数・コミュニケーション変数など)を統一的に表示することができる。 As described above, according to the present embodiment, the communication status can be visualized even for an SNS in which it is difficult to actually acquire data, so what kind of communication is performed on the SNS. It is possible to provide the user with information indicating whether or not. As a result, the user can easily select an SNS suitable for the user. Further, according to the present embodiment, feature quantities (system variables, situation variables, communication variables, etc.) from a plurality of viewpoints that could not be realized by the conventional technology can be displayed in a unified manner.
5 コミュニケーションデータ収集モジュール
7 データベース
9 ラベリングモジュール
11特徴ベクトル生成モジュール
13 状況特徴スキル抽出機能
15 システム機能スキル抽出機能
17 ユーザ態度スキル抽出機能
19 重要語抽出機能
21 サービス特徴抽出・提示モジュール
23 表示モジュール
5 Communication
Claims (9)
少なくとも一つの変数に基づいてラベリングされたデータを取得する処理と、
前記取得したデータの変数をパラメータとして特徴ベクトルを生成する処理と、
前記生成した特徴ベクトルを多次元空間にマッピングする処理と、
前記マッピングされた特徴ベクトルを画面に表示する処理と、の一連の処理を、コンピュータに実行させることを特徴とするプログラム。 A program for visualizing the characteristics of data,
Processing to obtain labeled data based on at least one variable;
Processing to generate a feature vector using the acquired data variable as a parameter;
Mapping the generated feature vector into a multidimensional space;
A program for causing a computer to execute a series of processes of displaying the mapped feature vector on a screen.
前記入力したデータに対して、少なくとも一つの変数に基づいてラベリングを行なう処理と、を更に含むことを特徴とする請求項1記載のプログラム。 The process of entering data,
The program according to claim 1, further comprising: a process of labeling the input data based on at least one variable.
少なくとも一つの変数に基づいてラベリングされたデータを取得するデータ取得部と、
前記取得したデータの変数をパラメータとして特徴ベクトルを生成する特徴ベクトル生成部と、
前記生成した特徴ベクトルを多次元空間にマッピングするマッピング部と、
前記マッピングされた特徴ベクトルを画面に表示する表示部と、を備えることを特徴とする端末装置。 A terminal device for visualizing data characteristics,
A data acquisition unit for acquiring labeled data based on at least one variable;
A feature vector generation unit that generates a feature vector using the acquired data variable as a parameter;
A mapping unit for mapping the generated feature vector to a multidimensional space;
And a display unit that displays the mapped feature vector on a screen.
少なくとも一つの変数に基づいてラベリングされたデータを取得するステップと、
前記取得したデータの変数をパラメータとして特徴ベクトルを生成するステップと、
前記生成した特徴ベクトルを多次元空間にマッピングするステップと、
前記マッピングされた特徴ベクトルを画面に表示するステップと、を少なくとも含むことを特徴とするデータ処理方法。
A data processing method for visualizing data characteristics,
Obtaining labeled data based on at least one variable;
Generating a feature vector using the acquired data variable as a parameter;
Mapping the generated feature vector to a multidimensional space;
Displaying at least one of the mapped feature vectors on a screen.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013001317A JP2014134895A (en) | 2013-01-08 | 2013-01-08 | Program, terminal device, and data processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013001317A JP2014134895A (en) | 2013-01-08 | 2013-01-08 | Program, terminal device, and data processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014134895A true JP2014134895A (en) | 2014-07-24 |
Family
ID=51413124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013001317A Pending JP2014134895A (en) | 2013-01-08 | 2013-01-08 | Program, terminal device, and data processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014134895A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529027A (en) * | 2019-09-19 | 2021-03-19 | 中国电信股份有限公司 | Data processing method, client, device and computer readable storage medium |
US11716298B2 (en) | 2021-03-15 | 2023-08-01 | Fujifilm Business Innovation Corp. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007027918A (en) * | 2005-07-13 | 2007-02-01 | Sharp Corp | Real world communication management apparatus |
-
2013
- 2013-01-08 JP JP2013001317A patent/JP2014134895A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007027918A (en) * | 2005-07-13 | 2007-02-01 | Sharp Corp | Real world communication management apparatus |
Non-Patent Citations (1)
Title |
---|
JPN7016001634; 武田 塁、後藤 文太朗: '電子メール高度利用支援のための電子メールコミュニケーション視覚化ツール' 情報処理学会研究報告 Vol.2007、No.32, 20070322, p.139-143, 社団法人情報処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529027A (en) * | 2019-09-19 | 2021-03-19 | 中国电信股份有限公司 | Data processing method, client, device and computer readable storage medium |
US11716298B2 (en) | 2021-03-15 | 2023-08-01 | Fujifilm Business Innovation Corp. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9819634B2 (en) | Organizing messages in a messaging system using social network information | |
US10412184B2 (en) | System and method for displaying contextual activity streams | |
EP2415011B1 (en) | Method for providing human network management service in mobile terminal | |
CN106204291A (en) | A kind of family tree management system and method | |
CN107636647A (en) | Automatically extract the promise in communication and content and request | |
US9485207B2 (en) | Processing of messages using theme and modality criteria | |
US8856664B2 (en) | Prompting of recipient expertise in collaboration environment | |
US10497045B2 (en) | Social network data processing and profiling | |
US11019019B2 (en) | Dynamic hashtag ordering based on projected interest | |
CN113672743B (en) | Fault judging method, device, electronic equipment, storage medium and product | |
CN108289053A (en) | Control method, the device and system of instant communication session | |
CN113591439B (en) | Information interaction method and device, electronic equipment and storage medium | |
US20130246542A1 (en) | Method for responding to a plurality of electronic messages | |
JP6101985B2 (en) | Program, terminal device and data processing method | |
JP2014134895A (en) | Program, terminal device, and data processing method | |
KR20140117811A (en) | Method and apparatus for visualization reading data | |
CA2892317C (en) | Incorporation of content from an external followed user within a social networking system | |
US20170039273A1 (en) | System and method for generating a customized singular activity stream | |
WO2020070906A1 (en) | Workshop assistance system and workshop assistance method | |
US20150379534A1 (en) | Contact Engagement Analysis for Target Group Definition | |
CN116996473A (en) | Message display method and related device | |
JP6108278B2 (en) | Concept organizing device, concept organizing device terminal and program of concept organizing device | |
CN115545990A (en) | City management intelligent service method based on Internet and government affair big data | |
US20180341687A1 (en) | Identifying the subject of an ambiguous name in a communication | |
CN114358725A (en) | Enterprise property identification method and device, storage medium and computer equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160621 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160809 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20161004 |