JP5685014B2 - ディスカッション健全度算出装置 - Google Patents

ディスカッション健全度算出装置 Download PDF

Info

Publication number
JP5685014B2
JP5685014B2 JP2010151084A JP2010151084A JP5685014B2 JP 5685014 B2 JP5685014 B2 JP 5685014B2 JP 2010151084 A JP2010151084 A JP 2010151084A JP 2010151084 A JP2010151084 A JP 2010151084A JP 5685014 B2 JP5685014 B2 JP 5685014B2
Authority
JP
Japan
Prior art keywords
discussion
soundness
data
utterances
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010151084A
Other languages
English (en)
Other versions
JP2012014507A (ja
Inventor
朋也 武吉
朋也 武吉
啓一郎 帆足
啓一郎 帆足
一則 松本
一則 松本
滝嶋 康弘
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2010151084A priority Critical patent/JP5685014B2/ja
Publication of JP2012014507A publication Critical patent/JP2012014507A/ja
Application granted granted Critical
Publication of JP5685014B2 publication Critical patent/JP5685014B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、ディスカッション健全度算出装置に関する。
近年、インターネット上で公開される電子掲示板などのオンラインディスカッションの場は、一般のユーザ同士が容易にディスカッションを行うことができるようになっている。そのオンラインディスカッションの場の状態を監視する従来技術として、例えば特許文献1が知られている。特許文献1では、企業組織活動における対話行動を評価するために、被評価者の所属グループにおける当該被評価者の対話行動事象の頻度を集計し、この集計情報をもとに、当該被評価者の該所属グループにおける対話行動のもたらす情報量を評価している。又、非特許文献1では、電子掲示板(Bulletin Board System:BBS)を監視する技術として、事前に辞書を準備し、電子掲示板におけるディスカッション中の発言において辞書中の単語が出現するか否か、および出現した単語同士が連鎖するか否かに基づいて、ディスカッションが荒れている度合いを算出している。
特開2006−260102号公報
Yu Ichifuji, Susumu Konno and Hideaki Sone, "A Method to Monitor a BBS Using Feature Extraction of Text Data," Proceedings of 3rd International Conference on Human.Society@Internet, LNCS 3597, pp.349-352, 2005.
しかし、上述した特許文献1の従来技術では、ディスカッションが健全に盛り上がっているのか、又は、荒れているのかを判定するには不十分である。例えば、ある参加者の発言頻度が多いからといって、必ずしも有効な発言が多いとは限らない。又、非特許文献1の従来技術では、辞書中の単語が発言の中に出現しない場合には、ディスカッションが荒れている度合いを算出することができない。
これまで、オンラインディスカッションの場を管理する管理者は、発言を目視確認することにより、ディスカッションが健全に盛り上がっているのか、又は、荒れているのかを判断している場合が多く、大変手間がかかっている。このため、ディスカッションの健全度を算出する精度を向上させることができれば、管理者はその健全度を参考にして目視確認するディスカッションを絞り込むことができるなど、管理者の負担軽減を図ることができると期待されている。
本発明は、このような事情を考慮してなされたもので、ディスカッションの健全度を算出する精度を向上させることができるディスカッション健全度算出装置を提供することを課題とする。
上記の課題を解決するために、本発明に係るディスカッション健全度算出装置は、ディスカッションの特徴を表す複数の指標を入力変数としてディスカッションの健全度を算出するための健全度定量化モデルを記憶する健全度定量化モデル記憶部と、健全度算出対象であるディスカッションデータを用いて、前記複数の指標の値を算出する指標算出部と、前記算出された複数の指標値と前記健全度定量化モデルとを用いて、ディスカッションの健全度を算出する健全度算出部と、を備えたことを特徴とする。
本発明に係るディスカッション健全度算出装置において、前記ディスカッションの特徴を表す指標は、一発言者、一発言、連続する発言の一組または一ディスカッションデータを、ディスカッションの特徴を表す要素の最小単位にしたものであることを特徴とする。
本発明に係るディスカッション健全度算出装置において、前記ディスカッションデータは、健全度算出対象であるディスカッション中の個個の発言を示す発言データを含み、前記複数の指標は、一ディスカッションにおける、一発言あたりの命令形の単語の個数の平均値、中央値、最大値もしくは最小値、又は、一発言あたりの文字数の平均値、中央値、最大値もしくは最小値を含むことを特徴とする。
本発明に係るディスカッション健全度算出装置において、前記ディスカッションデータは、健全度算出対象であるディスカッション中の個個の発言を示す発言データと各発言の発言者を示す発言者特定データと発言の順番を示す発言順特定データとを含み、前記複数の指標は、一ディスカッションにおける、同一発言者による連続した発言間の類似度の平均値、中央値、最大値または最小値を含むことを特徴とする。
本発明に係るディスカッション健全度算出装置において、前記ディスカッションデータは、健全度算出対象であるディスカッション中の各発言の発言者を示す発言者特定データと発言の順番を示す発言順特定データとを含み、前記複数の指標は、一ディスカッションにおける、同一発言者による連続した発言の出現頻度を含むことを特徴とする。
本発明に係るディスカッション健全度算出装置において、前記ディスカッションデータは、健全度算出対象であるディスカッション中の個個の発言を示す発言データと発言の順番を示す発言順特定データとを含み、前記複数の指標は、一ディスカッションにおける、連続した発言間の文字数の差の平均値、中央値、最大値または最小値を含むことを特徴とする。
本発明に係るディスカッション健全度算出装置においては、ディスカッションの健全度が特定されたディスカッションデータから算出された前記複数の指標値を説明変数とし、且つ、該特定された健全度を目的変数として多変量解析を行い、前記健全度定量化モデルを生成する健全度定量化モデル構築部を備えたことを特徴とする。
本発明に係るディスカッション健全度算出方法は、ディスカッション健全度算出装置におけるディスカッション健全度算出方法であって、前記ディスカッション健全度算出装置が、健全度算出対象であるディスカッションデータを用いて、ディスカッションの特徴を表す複数の指標の値を算出するステップと、前記ディスカッション健全度算出装置が、前記算出された複数の指標値と、前記複数の指標を入力変数としてディスカッションの健全度を算出するための健全度定量化モデルとを用いて、ディスカッションの健全度を算出するステップと、を含むことを特徴とする。
本発明に係るディスカッション健全度算出方法においては、前記ディスカッション健全度算出装置が、ディスカッションの健全度が特定されたディスカッションデータから算出された前記複数の指標値を説明変数とし、且つ、該特定された健全度を目的変数として多変量解析を行い、前記健全度定量化モデルを生成するステップ、をさらに含むことを特徴とする。
本発明に係るコンピュータプログラムは、ディスカッションの健全度を算出するためのコンピュータプログラムであって、健全度算出対象であるディスカッションデータを用いて、ディスカッションの特徴を表す複数の指標の値を算出するステップと、前記算出された複数の指標値と、前記複数の指標を入力変数としてディスカッションの健全度を算出するための健全度定量化モデルとを用いて、ディスカッションの健全度を算出するステップと、をコンピュータに実行させるためのコンピュータプログラムであることを特徴とする。
本発明に係るコンピュータプログラムにおいては、ディスカッションの健全度が特定されたディスカッションデータから算出された前記複数の指標値を説明変数とし、且つ、該特定された健全度を目的変数として多変量解析を行い、前記健全度定量化モデルを生成するステップをさらにコンピュータに実行させるためのコンピュータプログラムであることを特徴とする。
これにより、前述のディスカッション健全度算出装置がコンピュータを利用して実現できるようになる。
本発明によれば、ディスカッションの健全度を算出する精度を向上させることができるという効果が得られる。
本発明の一実施形態に係るディスカッション健全度算出装置100の構成を示すブロック図である。 同実施形態に係る健全度定量化モデル構築処理のフローチャートである。 同実施形態に係る健全度算出処理のフローチャートである。
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係るディスカッション健全度算出装置100の構成を示すブロック図である。図1において、ディスカッション健全度算出装置100は、対象ディスカッション抽出部2、指標算出部4、健全度算出部6、出力部8、ラベル付与部10、ラベル付データデータベース(ラベル付データDB)12、健全度定量化モデル構築部14および予測モデルデータベース(予測モデルDB)16を有する。
ディスカッション健全度算出装置100には、ディスカッションデータデータベース(ディスカッションデータDB)200からディスカッションデータが入力される。ディスカッションデータDB200は、ディスカッション毎にディスカッションデータを有する。これにより、ディスカッションデータDB200からは、ディスカッション毎にディスカッションデータを取得することができる。
ディスカッションデータは、一ディスカッション中の全発言を有し、且つ、各発言を区別することができる構成になっている。さらに、ディスカッションデータは、各発言について、発言者を特定する情報と発言の順番を特定する情報とを有する。具体的には、ディスカッションデータは、ディスカッションの場で発言された個個の発言を示す発言データと、各発言の発言者を示す発言者特定データと、発言の順番を示す発言順特定データとから構成される。
なお、ディスカッションデータは、オンラインで行われるディスカッションのデータであってもよく、又は、オフラインで行われるディスカッションのデータであってもよい。オンラインで行われるディスカッションのデータとしては、例えば、インターネット上で公開される電子掲示板の特定スレッド内に記載された個個の発言のテキストデータ(発言データ)と、各発言の発言者(ユーザ)のユーザIDのデータ(発言者特定データ)と、各発言がなされた時刻のデータ(発言順特定データ)とを有する。オフラインで行われるディスカッションのデータとしては、例えば、実際に人が集って行われる会議での発言を記録したテキストデータ(発言データ)と、各発言の発言者の識別番号を記録したデータ(発言者特定データ)と、各発言がなされた時刻を記録したデータ(発言順特定データ)とを有する。
対象ディスカッション抽出部2は、ディスカッション健全度算出装置100に入力されたディスカッションデータに対して、ディスカッションの健全度(以下、単に健全度と称する)を算出する対象にするか否かを所定の判定基準に従って判定する。対象ディスカッション抽出部2は、その判定に合格したディスカッションデータだけを、健全度を算出する対象に選択する。なお、特に判定条件が設定されない場合には、全てのディスカッションデータを健全度算出対象とする。
又、対象ディスカッション抽出部2は、ディスカッション健全度算出装置100に入力されたディスカッションデータに対して、健全度定量化モデルの生成に使用するか否かを所定の判定基準に従って判定する。対象ディスカッション抽出部2は、その判定に合格したディスカッションデータだけを、健全度定量化モデル生成用に選択する。なお、特に判定条件が設定されない場合には、全てのディスカッションデータを健全度定量化モデル生成用とする。
ディスカッションデータを健全度算出対象にするか否かの判定基準および健全度定量化モデル生成用にするか否かの判定基準としては、例えば、発言総数が規定値以上であること、又は、新規のディスカッションデータであること、などが挙げられる。
対象ディスカッション抽出部2は、健全度算出対象のディスカッションデータを指標算出部4へ出力する。又、対象ディスカッション抽出部2は、健全度定量化モデル生成用のディスカッションデータを指標算出部4およびラベル付与部10の両方へそれぞれ出力する。
指標算出部4は、対象ディスカッション抽出部2から入力されたディスカッションデータを用いて、所定の複数の指標の値を算出する。この指標は、ディスカッションの特徴を表すものである。指標算出部4は、健全度算出対象のディスカッションデータを用いて算出した複数の指標値を健全度算出部6へ出力する。又、指標算出部4は、健全度定量化モデル生成用のディスカッションデータを用いて算出した複数の指標値をラベル付与部10へ出力する。
健全度算出部6は、指標算出部4から入力された複数の指標値と健全度定量化モデルとを用いて、健全度を算出する。健全度定量化モデルは、予測モデルDB16に格納されている。出力部8は、健全度算出部6が算出した健全度を出力する。
ラベル付与部10は、健全度定量化モデル生成用のディスカッションデータに対して、特定された健全度を示すラベルを付加する。ディスカッションデータに付加するラベルは、人間(例えば、ディスカッションの場の管理者)が当該ディスカッションデータに係る健全度を判断し、該健全度に対応するラベルをディスカッション健全度算出装置100に指定する。このため、ラベル付与部10は、ディスカッションデータを提示する機能と、ラベル指定情報を入力する機能とを有する。
なお、健全度を示すラベルとしては、例えば「荒れている」若しくは「健全である」のように2段階で健全度を示すものであってもよく、又は、例えば「健全である」、「半分ほど荒れている」若しくは「全て荒れている」のように3段階以上の多段階で健全度を示すものであってもよい。
又、ラベル付与部10は、健全度定量化モデル生成用のディスカッションデータに関して指標算出部4が算出した複数の指標値を取得する。ラベル付与部10は、健全度定量化モデル生成用のディスカッションデータに関して、ラベル付きディスカッションデータおよび複数の指標値をラベル付データDB12に格納する。ラベル付データDB12は、そのラベル付きディスカッションデータと複数の指標値とを関連付けて蓄積する。
健全度定量化モデル構築部14は、ラベル付データDB12内のラベル付きディスカッションデータおよび複数の指標値の組を学習用データとして多変量解析を行い、健全度定量化モデルを生成する。この健全度定量化モデルは、複数の指標を入力変数として健全度を算出するための予測モデルとして構築される。健全度定量化モデルを生成するための多変量解析では、複数の指標値を説明変数とし、且つ、ラベルで示される健全度を目的変数とする。ラベルに対して、例えば2段階で健全度を示すラベルの場合、「健全である」には90、「荒れている」には0、というように数値を設定することにより、健全度を数値で算出する予測モデルを構築することができる。なお、多変量解析手法としては、例えば、線形回帰法またはSVM(Support Vector Machine)法を用いることができる。
予測モデルDB16は、健全度定量化モデル構築部14が生成した健全度定量化モデルを格納する。
次に、図2および図3を参照して、図1に示すディスカッション健全度算出装置100の動作を説明する。
まず図2を参照して、健全度定量化モデルを生成する動作を説明する。図2は、本実施形態に係る健全度定量化モデル構築処理のフローチャートである。
(ステップS1)対象ディスカッション抽出部2は、ディスカッションデータDB200内のディスカッションデータのうち、未処理のデータがあるか判定する。この結果、未処理のデータがある場合はステップS2に進み、未処理のデータがない場合はステップS6に進む。
(ステップS2)対象ディスカッション抽出部2は、ディスカッションデータDB200内のディスカッションデータのうちの未処理のディスカッションデータから、健全度定量化モデル生成用のディスカッションデータを一つ抽出する。
(ステップS3)ラベル付与部10は、ステップS2で抽出されたディスカッションデータをラベル指定者が使用する端末上に表示し、ラベル指定者が指定したラベルを当該ディスカッションデータに付加する。
(ステップS4)指標算出部4は、ステップS2で抽出されたディスカッションデータを用いて、所定の複数の指標の値を算出する。
(ステップS5)ラベル付与部10は、ステップS3でラベルを付加したラベル付きディスカッションデータと、ステップS3で算出された複数の指標値とを1エントリとしてラベル付データDB12に格納する。
(ステップS6)健全度定量化モデル構築部14は、ラベル付データDB12に格納されている全エントリのデータを用いて、健全度定量化モデルを生成する。この健全度定量化モデル生成処理では、1エントリのラベル付きディスカッションデータおよび複数の指標値を1学習用データとして、ラベルで示される健全度を目的変数とし、且つ、複数の指標値を説明変数として多変量解析を行い、健全度定量化モデルを生成する。
(ステップS7)健全度定量化モデル構築部14は、生成した健全度定量化モデルを予測モデルDB16に格納する。この後、図2の処理を終了する。
次に図3を参照して、健全度を算出する動作を説明する。図3は、本実施形態に係る健全度算出処理のフローチャートである。
(ステップS11)対象ディスカッション抽出部2は、ディスカッションデータDB200内のディスカッションデータのうち、未処理のデータがあるか判定する。この結果、未処理のデータがある場合はステップS12に進み、未処理のデータがない場合は図3の処理を終了する。
(ステップS12)対象ディスカッション抽出部2は、ディスカッションデータDB200内のディスカッションデータのうちの未処理のディスカッションデータから、健全度算出対象のディスカッションデータを一つ抽出する。
(ステップS13)指標算出部4は、ステップS12で抽出されたディスカッションデータを用いて、所定の複数の指標の値を算出する。
(ステップS14)健全度算出部6は、ステップS13で算出された複数の指標値と、予測モデルDB16内の健全度定量化モデルとを用いて、健全度を算出する。この後、ステップS11に戻る。なお、出力部8は、ステップS14で算出された健全度を、利用者が使用する端末上に表示するなど、出力する。
次に、本実施形態に係るディスカッションの特徴を表す指標について、実施例を挙げて説明する。
以下の説明では、健全度算出対象のディスカッションデータをDとし、ディスカッションデータDにおいて、発言総数をn(但し、nは自然数)、i番目の発言をci(但し、iは1からnまでの自然数)、発言者(ユーザ)の総数をm(但し、m≦n)、発言者(ユーザ)の集合をU、U内のある一人の発言者(ユーザ)をuとする。
ディスカッションの特徴を表す指標の実施例1は、一ディスカッションにおける、一発言あたりの命令形の単語の個数の平均値である。この指標の特徴を説明する。ディスカッションを行う上で、他者に命令することは無益な行いであると考えられる。このことから、一発言あたりの命令形の単語の個数が、多いほどディスカッションが荒れており、少ないほどディスカッションが健全である、という指標を利用することができる。以下、具体的な指標算出方法を説明する。
まず指標算出部4は、ディスカッションデータD内の発言ciに対し、形態素解析を行って動詞を抽出し、活用形が命令形である動詞の個数v1(ci)を数える。次いで、指標算出部4は、全ての発言についてのv1(ci)を用いて、次式(1)により、一発言あたりの命令形の単語の個数の平均値V1を算出する。
Figure 0005685014
これにより、実施例1に係る指標が算出される。なお、実施例1では、平均値を用いたが、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
ディスカッションの特徴を表す指標の実施例2は、一ディスカッションにおける、同一発言者による連続した発言間の類似度の平均値である。この指標の特徴を説明する。同一発言者の発言に着目した場合、荒れているディスカッションでは、他者の意見(発言)を理解することなく、自身の意見のみを主張する傾向があり、同一発言者による連続した発言間の類似度が高くなる。一方、ディスカッションが健全に行われている場合には、他者の発言を引用したり、自身の意見を別の表現で発言したりする傾向があり、同一発言者による連続した発言間の類似度が低くなる。このことから、同一発言者による連続した発言間の類似度が、高いほどディスカッションが荒れており、低いほどディスカッションが健全である、という指標を利用することができる。以下、具体的な指標算出方法を説明する。なお、ディスカッションデータDにおいて、ユーザuのk番目の発言をcu(k)とする。
まず指標算出部4は、あるユーザuに関し、k番目の発言cu(k)と(k+1)番目の発言cu(k+1)との間の類似度を算出する。具体的には、k番目の発言cu(k)を形態素解析して名詞と動詞を抽出し、単語出現ベクトルaを生成する。同様に、(k+1)番目の発言cu(k+1)についても形態素解析して名詞と動詞を抽出し、単語出現ベクトルbを生成する。次いで、指標算出部4は、単語出現ベクトルa及びbを用いて、次式(2)に示すコサイン類似度の計算式により、k番目の発言cu(k)と(k+1)番目の発言cu(k+1)との間の類似度v2(cu(k))を算出する。
Figure 0005685014
なお、単語出現ベクトルは、k番目の発言cu(k)内の単語と(k+1)番目の発言cu(k+1)内の単語とを対象にして単語の総数(重複カウントしない)を次元数としたベクトルであって、各単語に対応する要素を、該単語が1発言中に、x回出現する場合にxとし、出現しない場合に0としたものである。
次いで、指標算出部4は、ディスカッションデータD内におけるユーザuの発言数lと、ユーザuの全発言に係る類似度v2(cu(k))とを用いて、次式(3)により、ユーザuの発言間類似度の平均値v2(u)を算出する。但し、一つしか発言していないユーザu(つまり、「l=1」であるユーザu)に対しては、「v2(u)=0」とする。
Figure 0005685014
次いで、指標算出部4は、全ユーザについてのv2(u)を用いて、次式(4)により、同一のユーザ(発言者)による連続した発言間の類似度の平均値V2を算出する。
Figure 0005685014
これにより、実施例2に係る指標が算出される。なお、実施例2では、平均値を用いたが、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
ディスカッションの特徴を表す指標の実施例3は、一ディスカッションにおける、同一発言者による連続した発言の出現頻度である。この指標の特徴を説明する。ディスカッションにおいて、質問とその回答というように、異なる発言者の間で交互に発言が繰り返されるときは、ディスカッションが健全であると言える。一方、相手の発言を待つことなく、畳みかけるように同一発言者が一方的に発言するときは、ディスカッションが荒れていると言える。このことから、同一発言者による連続した発言の出現頻度が、高いほどディスカッションが荒れており、低いほどディスカッションが健全である、という指標を利用することができる。以下、具体的な指標算出方法を説明する。
まず指標算出部4は、ある発言ci(但し、1≦i≦n−1)とその次の発言cj(但し、j=i+1)とが同一ユーザによる発言であるかを調べる。この結果、発言ciとcjとが同一ユーザによる発言である場合、指標算出部4は、発言ciに係る同一ユーザによる連続発言の有無を示す変数v3(ci)を「1(連続発言あり)」に設定する。一方、発言ciとcjとが同一ユーザによる発言でない場合、指標算出部4は、変数v3(ci)を「0(連続発言なし)」に設定する。
次いで、指標算出部4は、1番目から(n−1)番目までの全ての発言ciについてのv3(ci)を用いて、次式(5)により、同一のユーザ(発言者)による連続した発言の出現頻度V3を算出する。
Figure 0005685014
これにより、実施例3に係る指標が算出される。
ディスカッションの特徴を表す指標の実施例4は、一ディスカッションにおける、一発言あたりの文字数の平均値である。この指標の特徴を説明する。荒れているディスカッションでは、ディスカッションの進行につながらない発言として、単なる個人批判や平行線の発言などが多くなると、着々と進行する健全なディスカッションよりも発言内の文字数が増える。このことから、一発言あたりの文字数の平均値が、多いほどディスカッションが荒れており、少ないほどディスカッションが健全である、という指標を利用することができる。以下、具体的な指標算出方法を説明する。
まず指標算出部4は、ある発言ci内の文字数v4(ci)を数える。次いで、指標算出部4は、全ての発言ciについてのv4(ci)を用いて、次式(6)により、一発言あたりの文字数の平均値V4を算出する。
Figure 0005685014
これにより、実施例4に係る指標が算出される。なお、実施例4では、平均値を用いたが、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
ディスカッションの特徴を表す指標の実施例5は、一ディスカッションにおける、連続した発言間の文字数の差の平均値である。この指標の特徴を説明する。ディスカッションにおいて、質問とその回答という連続した発言に着目すると、質問に対して適切な回答が行われる健全なディスカッションでは、連続した発言間の文字数の差は少ないと考えられる。一方、荒れているディスカッションでは、相手を論破するために、ディスカッションに関係のない文言を付け加えたり、以前に相手がした発言をすべて否定する内容を列挙したりする特徴があり、連続した発言間の文字数の差は大きいと考えられる。このことから、連続した発言間の文字数の差の平均値が、大きいほどディスカッションが荒れており、小さいほどディスカッションが健全である、という指標を利用することができる。以下、具体的な指標算出方法を説明する。
まず指標算出部4は、ある発言ci(但し、1≦i≦n−1)とその次の発言cj(但し、j=i+1)とを対象にして、各発言の文字数を数え、発言ciとcj間の文字数の差の絶対値v5(ci)を算出する。次いで、指標算出部4は、1番目から(n−1)番目までの全ての発言ciについてのv5(ci)を用いて、次式(7)により、連続した発言間の文字数の差の平均値V5を算出する。
Figure 0005685014
これにより、実施例5に係る指標が算出される。なお、実施例5では、平均値を用いたが、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
なお、ディスカッションの特徴を表す指標としては、上述した実施例1〜5に係る指標以外にも、以下に示すものが利用可能である。
・参加ユーザの総数:一ディスカッションに参加しているユーザの総数である。
・発言総数:一ディスカッション内での発言の総数である。
・特定ユーザによる発言独占率:発言数が多いユーザについて、その発言数が一ディスカッションにおける発言数に占める割合である。
・ユーザ名出現頻度:ディスカッションに参加しているユーザの名称が一発言内に出現する割合である。
・一発言あたりの外部情報参照数:一発言当たりで参照される外部情報の個数の平均値である。外部情報とは、発言以外に付加された情報であって、例えばオンラインディスカッションでは外部情報として情報の在り処を示すURL(Uniform Resource Locator)が付加される。なお、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
・一発言あたりの平均疑問符(疑問形)数:一発言あたりに出現する質問の数の平均値である。一発言内に出現する質問の総数としては、一発言内に出現する疑問符「?」の総数を使用する。なお、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
・一文あたりの平均文字数:一ディスカッションにおける総文字数を総文数で割った値である。文数には、句点「。」、疑問符「?」、感嘆符「!」の数を使用する。なお、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
・発言間隔の平均値:一ディスカッションにおける発言間の時間間隔の平均値である。なお、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
・発言間での共起単語数:一ディスカッションにおける発言間で共起する単語の個数の平均値である。なお、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
・新規単語数:一ディスカッションにおける発言ごとに新規に出現する単語の個数の平均値である。なお、平均値の代わりに、中央値、最大値または最小値を使用するようにしてもよい。
・命令形の連続出現数:連続する発言の両方に命令形が出現している場合の数である。
以上が、本実施形態に係るディスカッションの特徴を表す指標についての実施例である。
次に、本実施形態に係る健全度算出方法について、実施例を挙げて説明する。
実施例6は、多変量解析手法として線形回帰法を用いて生成された健全度定量化モデルを使用する実施例である。ここでは、健全度定量化モデルは、y個(yは2以上の自然数)の指標が説明変数として用いられたとする。従って、健全度定量化モデルは、該y個の指標を入力変数として健全度を算出するように構築されている。具体的には、健全度定量化モデル構築部14は、y個の指標にそれぞれ対応するy個の回帰係数を生成する。各回帰係数は、該当する指標に対して重み付けするためのものである。該y個の回帰係数は予測モデルDB16に格納される。
まず健全度算出部6は、指標算出部4からy個の指標値V(但し、xは1からyまでの自然数)を受け取ると、予測モデルDB16からy個の回帰係数aを読み出す。次いで、健全度算出部6は、次式(8)により、健全度Vを算出する。但し、cは定数である。
Figure 0005685014
以上が本実施形態に係る健全度算出方法の実施例である。
本実施形態によれば、非特許文献1の従来技術が用いるような辞書は不要であり、ディスカッションの特徴を表す複数の指標に基づいてディスカッションの健全度を算出することにより、健全度の算出精度を向上させることができるという効果が得られる。これにより、例えばオンラインディスカッションの場を管理する管理者は、その健全度を参考にして目視確認するディスカッションを絞り込むことができるなど、オンラインディスカッションの場の状態を監視することが容易になり、管理者の負担軽減を図ることが可能となる。又、ユーザ(発言者)は、本実施形態に係る健全度に基づいて、自己が参加するディスカッションを選択したり、既に参加しているディスカッションを進める上での参考にするディスカッションを選択したりすることができる。
例えば、ディスカッションの場を提供するサービス(例えば、SNS)の運用者は、場を健全に保つため、本実施形態に係る健全度に基づいて特に荒れているディスカッションを抽出し、内容の精査と状況に応じて介入行動を行う。介入行動としては、荒れている議論の仲裁や、荒れの原因となるユーザの排除(アカウントブロック)等が挙げられる。このとき、大量のディスカッションデータから、目視で荒れているディスカッションのみをピックアップすることは容易ではないため、本実施形態に係る健全度が低いディスカッションから優先的に介入行動の対象とする。これにより、ユーザが安心してディスカッションすることができる場を提供することができるようになり、ディスカッションの場を提供するサービスの向上が可能となる。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述した実施形態では、ディスカッション健全度算出装置100は、健全度定量化モデルを生成する健全度定量化モデル構築機能と、健全度定量化モデルを使用して健全度を算出する健全度算出機能とを備えたが、健全度定量化モデル構築機能と健全度算出機能とをそれぞれ別の装置として構成するようにしてもよい。
また、図2、図3に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、健全度定量化モデル構築処理、健全度算出処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
2…対象ディスカッション抽出部、4…指標算出部、6…健全度算出部、8…出力部、10…ラベル付与部、12…ラベル付データデータベース(ラベル付データDB)、14…健全度定量化モデル構築部、16…予測モデルデータベース(予測モデルDB)、100…ディスカッション健全度算出装置

Claims (3)

  1. ディスカッションの特徴を表す複数の指標を入力変数としてディスカッションの健全度を算出するための健全度定量化モデルを記憶する健全度定量化モデル記憶部と、
    健全度算出対象であるディスカッションデータを用いて、前記複数の指標の値を算出する指標算出部と、
    前記算出された複数の指標値と前記健全度定量化モデルとを用いて、ディスカッションの健全度を算出する健全度算出部と、を備え、
    前記ディスカッションの特徴を表す指標は、一発言者、一発言、連続する発言の一組または一ディスカッションデータを、ディスカッションの特徴を表す要素の最小単位にしたものであり、
    前記ディスカッションデータは、健全度算出対象であるディスカッション中の個個の発言を示す発言データと各発言の発言者を示す発言者特定データと発言の順番を示す発言順特定データとを含み、
    前記複数の指標は、一ディスカッションにおける、同一発言者による連続した発言間の類似度の平均値、中央値、最大値または最小値を含む、
    ことを特徴とするディスカッション健全度算出装置。
  2. ディスカッションの特徴を表す複数の指標を入力変数としてディスカッションの健全度を算出するための健全度定量化モデルを記憶する健全度定量化モデル記憶部と、
    健全度算出対象であるディスカッションデータを用いて、前記複数の指標の値を算出する指標算出部と、
    前記算出された複数の指標値と前記健全度定量化モデルとを用いて、ディスカッションの健全度を算出する健全度算出部と、を備え、
    前記ディスカッションの特徴を表す指標は、一発言者、一発言、連続する発言の一組または一ディスカッションデータを、ディスカッションの特徴を表す要素の最小単位にしたものであり、
    前記ディスカッションデータは、健全度算出対象であるディスカッション中の各発言の発言者を示す発言者特定データと発言の順番を示す発言順特定データとを含み、
    前記複数の指標は、一ディスカッションにおける、同一発言者による連続した発言の出現頻度を含む、
    ことを特徴とするディスカッション健全度算出装置。
  3. ディスカッションの特徴を表す複数の指標を入力変数としてディスカッションの健全度を算出するための健全度定量化モデルを記憶する健全度定量化モデル記憶部と、
    健全度算出対象であるディスカッションデータを用いて、前記複数の指標の値を算出する指標算出部と、
    前記算出された複数の指標値と前記健全度定量化モデルとを用いて、ディスカッションの健全度を算出する健全度算出部と、を備え、
    前記ディスカッションの特徴を表す指標は、一発言者、一発言、連続する発言の一組または一ディスカッションデータを、ディスカッションの特徴を表す要素の最小単位にしたものであり、
    前記ディスカッションデータは、健全度算出対象であるディスカッション中の個個の発言を示す発言データと発言の順番を示す発言順特定データとを含み、
    前記複数の指標は、一ディスカッションにおける、連続した発言間の文字数の差の平均値、中央値、最大値または最小値を含む、
    ことを特徴とするディスカッション健全度算出装置。
JP2010151084A 2010-07-01 2010-07-01 ディスカッション健全度算出装置 Active JP5685014B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010151084A JP5685014B2 (ja) 2010-07-01 2010-07-01 ディスカッション健全度算出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010151084A JP5685014B2 (ja) 2010-07-01 2010-07-01 ディスカッション健全度算出装置

Publications (2)

Publication Number Publication Date
JP2012014507A JP2012014507A (ja) 2012-01-19
JP5685014B2 true JP5685014B2 (ja) 2015-03-18

Family

ID=45600841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010151084A Active JP5685014B2 (ja) 2010-07-01 2010-07-01 ディスカッション健全度算出装置

Country Status (1)

Country Link
JP (1) JP5685014B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5864273B2 (ja) * 2012-01-06 2016-02-17 Kddi株式会社 ユーザ間親密度推定装置、方法及びプログラム
CN104835016A (zh) * 2015-05-27 2015-08-12 北京搜狐新媒体信息技术有限公司 一种人群密度计算方法及装置
JP6576141B2 (ja) * 2015-07-28 2019-09-18 Kddi株式会社 特性語によってグループ状態を推定可能なプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211280A (ja) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2012014507A (ja) 2012-01-19

Similar Documents

Publication Publication Date Title
US10885278B2 (en) Auto tele-interview solution
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
US20170213190A1 (en) Method and system for analysing subjects
Li et al. Expressing reactive emotion based on multimodal emotion recognition for natural conversation in human–robot interaction
Wambaugh et al. Interrater reliability and concurrent validity for the Apraxia of Speech Rating Scale 3.0: Application with persons with acquired apraxia of speech and aphasia
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
JP7096172B2 (ja) キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法
Friginal et al. Linguistic characteristics of AAC discourse in the workplace
US9922644B2 (en) Analysis of professional-client interactions
CN116796857A (zh) 一种llm模型训练方法、装置、设备及其存储介质
Zhan et al. Predicting employee dissent expression in organizations: A cost and benefit approach
JP5685014B2 (ja) ディスカッション健全度算出装置
JP6570465B2 (ja) 重要語によって参加者の貢献度を推定可能なプログラム、装置及び方法
JP5942052B1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
Zhang et al. Investigating the effects of phonological neighbours on word retrieval and phonetic variation in word naming and picture naming paradigms
CN111490929B (zh) 视频片段推送方法、装置、电子设备、存储介质
JP6511192B2 (ja) 議論支援システム、議論支援方法、及び議論支援プログラム
Jiao et al. Objective intelligibility assessment by automated segmental and suprasegmental listening error analysis
KR102350359B1 (ko) 음성 인식 알고리즘을 이용한 영상 편집 방법
JP2019124897A (ja) 音声解析装置、音声解析システム、及びプログラム
KR20220080999A (ko) 복수의 멀티미디어 컨텐츠들을 참조하여 사용자 단말기와 통신하는 네트워크 서버 및 방법
Zainuddin et al. Hedging functions in Malaysian doctoral candidature defense sessions
Kim et al. An empirical user-study of text-based nonverbal annotation systems for human–human conversations
CN117934229B (zh) 基于创意激发的口才训练引导方法、系统、设备及介质
Höhne et al. The Sound of respondents: Predicting respondents’ level of Interest with voice data in smartphone surveys

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140213

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150116

R150 Certificate of patent or registration of utility model

Ref document number: 5685014

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150