CN104685493A - 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 - Google Patents
用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 Download PDFInfo
- Publication number
- CN104685493A CN104685493A CN201380050748.6A CN201380050748A CN104685493A CN 104685493 A CN104685493 A CN 104685493A CN 201380050748 A CN201380050748 A CN 201380050748A CN 104685493 A CN104685493 A CN 104685493A
- Authority
- CN
- China
- Prior art keywords
- phrase
- usefulness
- degree
- text information
- detection condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims description 38
- 238000001514 detection method Methods 0.000 claims abstract description 127
- 238000004364 calculation method Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 abstract description 16
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 121
- 208000015181 infectious disease Diseases 0.000 description 66
- 230000014509 gene expression Effects 0.000 description 10
- 241000283086 Equidae Species 0.000 description 7
- 241000700605 Viruses Species 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010420 art technique Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- NRNCYVBFPDDJNE-UHFFFAOYSA-N pemoline Chemical compound O1C(N)=NC(=O)C1C1=CC=CC=C1 NRNCYVBFPDDJNE-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明的目的是生成用于监视文本信息的字典,使得与现有技术相比,可以实现高精度检测。特征度计算单元(3)比较正例集合和反例集合的统计量,并且将感兴趣短语出现在正例集合中的程度计算为特征度。对于由短语提取单元(1)提取的每一短语,有用度计算单元(21)通过使用短语的长度、短语出现在正例集合中的频率、以及与短语之间的包含关系有关的指标,来计算有用度。检测条件判定单元(22)使用由有用度计算单元(21)计算的有用度和由特征度计算单元(3)计算的特征度来通过有用度和特征度的乘积,评估每一短语作为检测条件的适当性,并且当乘积的值大于阈值时,确定该短语适合检测条件。
Description
技术领域
本发明涉及用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序。具体而言,本发明涉及这样的用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序,通过其使得即使对未知文本也能生成高精度地监视文本信息的字典。
背景技术
为监视互联网上的谣言等等,检测出现在大量文本中的作为监视对象的信息内容的文本信息监视技术变得很重要。在本发明中采用的文本信息监视系统在字典的基础上,监视文本信息。换句话说,作为文本信息监视技术,使用基于字典的技术,其中,在用于监视文本信息的字典中保存检测条件,并且检测输入文档中的表述是否与用于监视文本信息的字典中的条件匹配。
在基于字典的技术中,通过使用高精度字典,能高精度地监视文本信息。由此,使用高精度字典很重要。
在基于字典的文本信息监视系统中生成具有内省的字典费时、易于导致遗漏,因此很困难。由此,期望一种这样的技术,其中,提供采集包括作为监视对象的信息内容的文档的正例集合、以及采集不包括针对监视对象的信息内容的文档的反例集合,来自动地从这些集合提取登记为检测条件的表述。这种方法的常见技术包括特征词提取技术。特征词提取技术是比较正例集合和反例集合来将特征性地出现在正例集合中的词提取为特征词的技术。
这种技术的示例是PTL 1。在PTL 1中,当构造被用在文本挖掘中的字典时,将作为分析对象的文档数据分成组,并且将特征性地出现在每一组中的表述用作字典候选。
[引用清单]
[专利文献]
[PTL 1]:日本专利公开号No.2009-015394
发明内容
[技术问题]
然而,在现有技术中,通过以词或修饰级的短单位的特征词提取技术不能充分地满足文本信息监视系统的性能需求。这是因为仅通过以词或修饰级的短单位会降低检测精度。例如,即使将一个词“病毒”登记在用于监视文本信息的字典中以便检测有关计算机病毒的描述,会错误检测包括例如“感冒病毒”的文档。在这种情况下,有必要将包括一个以上的词的短语,诸如“计算机病毒”或“病毒邮件”登记在用于监视文本信息的字典中。
如上所述,最佳短语长度取决于想检测什么,因此,不可能预先将该长度判定为唯一值。由此,为了处理具有可变长度的短语,需要将具有任意长度的短语提取为候选并且计算每一短语的特征度。此外,不可能适当地处理以相同特征度输出相互重叠的多个短语的情形。
例如,提取图4中所示的短语,并且当给出在图3中所示的正反例集合时,通过针对具有各种长度的短语来执行特征词提取,以相同特征度(=3)提取“特洛伊木马”、“特洛伊”和“木马”。然而,尽管“特洛伊”或“木马”均未出现在反例集合中,但由于能想到与病毒无关的诸如“特洛伊遗址”和“旋转木马”的表述,登记在用于监视文本信息的字典中的“特洛伊”和“木马”导致较低检测精度。理论上,反例集合中出现诸如“特洛伊遗址”或“旋转木马”的表述会导致诸如“特洛伊”或“木马”的表述的较低特征度并且还导致较低检测精度。然而,实际上,很少获得具有足够数量的反例集合,因此,如上所述的这种问题经常发生。
在PTL 1中,公开了将与特征词搭配的词也视作字典登记候选的技术,然而,在是否执行字典登记的判定中,使用诸如TF(TermFrequency)(词频)和IDF(Inverse Document Frequency)(逆文档频率)的乘积的指标,但是对相互重叠的多个短语,则认为存在上述问题。
如上所述,通过由正例集合和反例集合计算的特征度构成用于监视文本信息的字典的现有技术具有导致较低检测精度的问题。
本发明要解决上述问题并且提供用于监视文本信息的字典生成装置、用于监视文本信息的字典生成方法和用于监视文本信息的字典生成程序,使得与现有技术相比,可以实现高精度检测。
[技术方案]
要解决上述问题的本发明是一种用于监视文本信息的字典生成装置,其用在文本信息监视系统中,并且生成登记检测条件的字典,其包括:特征度计算单元,对作为检测条件的候选的短语,计算表示该短语与作为监视对象的信息内容匹配的程度的特征度;以及短语有用度判定单元,基于特征度和表示由该短语限定的含义的少许模糊度的有用度,判定短语是否适合检测条件。
将解决上述问题的本发明是一种生成用在文本信息监视系统中的字典的方法,其中,监视文本信息的字典生成装置对作为检测条件的候选的短语,计算表示短语与作为监视对象的信息内容匹配的程度的特征度;基于特征度和表示由短语限定的含义的少许模糊度的有用度,判定短语是否适合检测条件;并且输出判定为适合的短语并且将短语登记为检测条件。
要解决上述问题的本发明是一种用于监视文本信息的字典生成程序,其允许监视文本信息的字典生成装置来执行以下各处理:对作为检测条件的候选的短语,计算表示短语与作为监视对象的信息内容匹配的程度的特征度;基于特征度和表示由短语限定的含义的少许模糊度的有用度,判定短语是否适合检测条件;并且输出判定为适合的短语并且将短语登记为检测条件。
[有益效果]
通常,更长长度的短语的导致含义的更少模糊度,并且导致检测条件的更高匹配率。在本发明中,基于短语的长度来计算有用度,并且基于有用度和特征度来提取将登记在字典中的短语。换句话说,对于具有更长长度的短语给予优先级。
因此,能生成监视文本信息的字典,使得与现有技术相比,可以高精度检测。
附图说明
图1是字典生成装置的功能框图。
图2是字典生成装置的操作流。
图3是正例集合和反例集合的示例(与现有技术通用)。
图4是每一短语的频率和特征度的示例(与现有技术通用)。
图5是每一短语的有用度和得分的示例(应用示例1)。
图6是每一短语的有用度和得分的示例(应用示例2)。
图7是每一短语的有用度和得分的示例(应用示例3)。
图8是每一短语的有用度和得分的示例(应用示例4)。
图9每一短语的有用度和得分的示例(应用示例5)。
具体实施方式
-构成/操作-
在下文中,将参考附图,详细地说明本发明的示例性实施例的构成和操作。
图1是根据本示例性实施例的字典生成装置的功能框图。根据本示例性实施例的字典生成装置包括短语提取单元1、短语有用度判定单元2、特征度计算单元3和输出单元4。短语有用度判定单元2包括有用度计算单元21和检测条件判定单元22。
将说明每一构成的功能。
假定给出采集有包括作为监视对象的信息内容的文档的正例集合和采集有不包括作为监视对象的信息内容的文档的反例集合(见图3)。
短语提取单元1对指定正例集合中的文本执行语言分析,将具有各种长度的短语提取为检测条件的候选。通过执行将短语提取为特定词性标记串的形态分析、通过执行将所获得的语法树的子树视作短语的语法分析或通过使用这些分析的组合,来提取短语。
短语有用度判定单元2计算在短语提取单元1中提取的每一短语的有用度,并且通过结合有用度和由特征度计算单元3计算的特征度,进一步判定该短语是否适合检测条件。
针对短语提取单元1提取的每一短语,有用度计算单元21通过使用短语的长度、该短语出现在正例集合中的频率、以及有关于在短语之间的包含关系的指标,计算有用度。如在此所使用的,短语的有用度是指表示由短语限定的含义的少许模糊度的值,以及是指在将短语看作检测条件的情况下的表示检测精度的值。作为有用度,可以使用短语的长度或其对数值,或可以使用短语的长度或其对数值与正例集合中该短语的出现次数或其对数值的乘积。或者,作为有用度,还可以基于与短语之间的包含关系相关的指标,使用如在NPL 1中提出的C值。
NPL 1:Frantzi,K和Ananiadou,S.(1996).“Extracting NestedCollocations.”In proceedings of the 16th International Conference onComputational Linguistics(COLING 96)(第16届计算语言学国际会议学报),第41-46页。
稍后,将提及有用度计算的应用示例(应用示例1至4)。
对每一短语,检测条件判定单元22通过使用由有用度计算单元21计算的有用度和由特征度计算单元3计算的特征度,判定该短语是否适合检测条件。例如,检测条件判定单元22通过有用度和特征度的乘积,将适当性评估为检测条件,并且在该乘积的值大于阈值的情况下,判定该短语适合检测条件。检测条件判定单元22还能排除其有用度小于阈值的短语,以减少计算其特征度的短语和减少计算量(应用示例5)。
特征度计算单元3比较正例集合和反例集合的统计量,并且将感兴趣的短语出现在正例集合中的程度计算为特征度。通过使用用在文本挖掘中的已知度量,诸如卡方值、互信息内容或ESC(ExtendedStochastic Complexity)(扩展随机复杂性),计算特征度。可以对在短语提取单元1或提取的所有短语或仅对短语有用度判定单元2中的判定所需的短语,执行这种情况下的特征度的计算。
输出单元4将通过短语有用度判定单元2判定为适合检测条件的短语输出为将登记在字典中的短语。输出单元4不仅仅输出将登记在字典中的短语,而且还将该短语与有用度、特征度、将适当性表示为检测条件的得分等等一起输出,由此能对参考得分等等使用人力来将登记在字典中的短语进行排序,以减轻构成用于监视文本信息的字典的操作。
图2是字典生成装置的操作流。字典生成程序允许字典生成装置执行操作流的每一处理。当执行程序时,操作短语提取单元1、短语有用度判定单元2、特征度计算单元3和输出单元4。
首先,短语提取单元1使指定正例集合中的文本经过语言分析来将具有各种长度的短语提取为检测条件的候选(步骤S 1)。
然后,有用度计算单元21计算由短语提取单元1提取的每一短语的有用度(步骤S2)。
另一方面,特征度计算单元3计算感兴趣的短语的特征度(步骤S3)。
然后,对每一短语,检测条件判定单元22通过使用由有用度计算单元21计算的有用度和由特征度计算单元3计算的特征度,判定该短语是否适合检测条件(步骤S4)。例如,检测条件判定单元22基于有用度和特征度,计算得分并且基于该得分,执行判定。
最后,输出单元4输出将登记在字典中的短语(步骤S5),并且完成处理。
可以更早执行步骤S2和步骤S3的每一个,或可以同时执行这些步骤。
在步骤S3和步骤S4中,可以仅计算其有用度不小于阈值的短语的特征量来判定该短语是否适合检测条件。
-现有技术的具体示例-
根据现有技术的字典创建装置包括短语提取单元1、特征度计算单元3和输出单元4(省略示例)。换句话说,除存在或缺少短语有用度判定单元2外,根据现有技术的字典生成装置与本示例性实施例是共通的。
根据本示例的文本信息监视系统将字符串与监视文本信息的字典匹配,由此监视文本信息,并且在监视文本信息的字典中,将该字符串登记为检测条件。然而,根据本示例的文本信息监视系统不限于上述系统,并且在通过将词性标记或语法结构作为条件的监视文本信息的系统中,本发明也有效。
字典生成装置生成被用在用于监视文本信息的字典中的字典。
图3是正例集合和反例集合的示例。假定给出这种正反例集合。
首先,短语提取单元1从正例集合提取检测条件的候选。例如,当从图3的正例集合提取具有三或更少组块(chunk)的所有短语时,将诸如“特洛伊木马”、“特洛伊”、“木马”、“特洛伊木马感染”、“木马感染”、“感染”和“电子邮件”的短语提取为检测条件的候选。
然后,特征度计算单元3计算检测条件的每一候选的特征度。图4是每一短语的频率和特征度的示例。例如,假定通过:特征度=(正例集合中的频率)-(反例集合中的频率)计算特征度。计算出“特洛伊木马”的特征度为3,“特洛伊”的特征度为3,“木马”的特征度为3,“特洛伊木马感染”的特征度为2,“木马感染”的特征度为2,“感染”的特征度为1,以及“电子邮件”的特征度为1。
输出单元4例如输出具有高特征度的短语“特洛伊木马”、“特洛伊”和“木马”,并且将这些短语登记在字典中。
-具体应用示例1-
短语提取单元1和特征度计算单元3的操作与现有技术类似。换句话说,从正例集合提取检测条件的候选,并且计算检测条件的每一候选的特征度。
此外,有用度计算单元21计算检测条件的每一候选的有用度。图5是每一短语的有用度和得分的示例(稍后所述)。例如,基于短语的长度和正例集合中的频率的乘积,计算有用度。换句话说,当通过:有用度=(短语的长度)×(正例集合中的频率),计算有用度时,计算“特洛伊木马”的有用度为6,“特洛伊”的有用度为3,“木马”的有用度为3,“特洛伊木马感染”的有用度为6,“木马感染”的有用度为4,“感染”的有用度为2,以及“电子邮件”的有用度为2。在这种情况下,基于组块数,计算每一短语的长度。然而,除组块数外,还可以基于语素数、字符数、字节长度等等,计算该长度。
然后,检测条件判定单元22评估检测条件的每一候选(见图5)。例如,检测条件判定单元22基于有用度和特征度的乘积,计算表示检测条件的适当性的得分。换句话说,当通过:得分=特征度×有用度,计算得分时,检测条件判定单元22计算“特洛伊木马”的得分为18,“特洛伊”的得分为9,“木马”的得分为9,“特洛伊木马感染”的得分为12,“木马感染”的得分为8,“感染”的得分为2,以及“电子邮件”的得分为2。例如,当将具有10或以上得分的短语用作检测条件时,检测条件判定单元22判定“特洛伊木马”和“特洛伊木马感染”这两个适合检测条件。
输出单元4基于来自检测条件判定单元22的判定结果,输出短语“特洛伊木马”和“特洛伊木马感染”,并且将这些短语登记在字典中。
-效果-
与现有技术相比,将说明本示例性实施例的效果。
在仅基于特征度判定检测条件的现有技术中,“特洛伊木马”、“特洛伊”和“木马”具有最大的特征度=3,并且是检测条件。然而,会检测到本质上不期望被检测到的表述,诸如对于“特洛伊”的“特洛伊遗址”和对于“木马”的“旋转木马”,因此,降低了检测精度。
相反,在本示例性实施例中,短语有用度判定单元2将短语的长度用作候选来在该短语是检测条件的情况下,计算表示检测条件的优度的有用度。短语有用度判定单元2通过使用所获得的有用度和单独计算的特征度,判定将登记在字典中的短语。
通常,更长长度的短语导致含义的更低模糊度以及检测条件的更高匹配率。由此,在相互重叠的短语具有相同特征度的情况下,通过选择具有长的长度的短语,与仅使用特征度的情形下相比,实现更高精度检测。
除短语的长度外,进一步使用短语出现在文档集合中的频率来计算有用度。更长长度的短语导致更高匹配率,但认为导致更低查全率(recall rate),因为降低了短语的出现概率。由此,考虑频率和短语长度使能计算平衡了匹配率和查全率的有用度,并且实现更高精度检测。
在本示例性实施例中,“特洛伊木马”和“特洛伊木马感染”是检测条件,而“特洛伊”和“木马”均未登记在字典中,因此,能实现比现有技术更高精度的检测。
-具体应用示例2-
在如上所述的应用示例1中,有用度计算单元21基于短语的长度和正例集合中的频率的乘积,计算有用度,然而,当期望有用度之间的差更显著时,可以从短语的长度减去校正值。
图6是每一短语的有用度和得分的另一示例。例如,有用度计算单元21基于通过从短语的长度减去校正值获得的值与正例集合中的频率的乘积,计算有用度。可以凭经验地确定校正值。在该示例中,假定校正值为“-0.5”。换句话说,通过下述计算的情况下:有用度=(短语的长度-0.5)×(正例集合中的频率),使得计算“特洛伊木马”的有用度为4.5,“特洛伊”的有用度为1.5,“木马”的有用度为1.5,“特洛伊木马感染”的有用度为5,“木马感染”的有用度为3,“感染”的有用度为1,以及“电子邮件”的有用度为1。
如上所述,对短语的长度进行校正以使其更为突出。
然后,检测条件判定单元22由:得分=特征度×有用度,计算“特洛伊木马”的得分为13.5,,“特洛伊”的得分为4.5,“木马”的得分为4.5,“特洛伊木马感染”的得分为10,“木马感染”的得分为6,“感染”的得分为1,以及“电子邮件”的得分为1。例如,当将具有10或以上得分的短语用于检测条件时,检测条件判定单元22判定“特洛伊木马”和“特洛伊木马感染”适合检测条件。
与应用示例1相比,相对于“特洛伊木马”的得分,降低“特洛伊”或“木马”的得分率。换句话说,将“特洛伊木马”被更可靠地登记在字典中,而“特洛伊”和“木马”被更可靠地排除出字典登记。因此,提高了精度。
-具体应用示例3-
在如上所述的应用示例1和应用示例2中,将检测条件判定单元22设定成将具有得分10或以上的短语用作检测条件,因此,“木马感染”未被登记在字典中,但取决于设定值,也能被登记。“木马感染”包括在“特洛伊木马感染”中,并且在大多数情况下,用作“特洛伊木马感染”的表述,所谓的固定词组。由此,将“木马感染”和“特洛伊木马感染”均登记在字典中没有意义。
由此,有用度计算单元21基于表示短语之间的包含关系的指标以及短语长度和正例集合中的频率,计算有用度。例如,可以将C值假定为有用度。C值是由下述公式计算的值。图7是每一短语的有用度(C值)和得分的另一示例。
C值的定义
C值=(短语长度)×(正例集合中的频率-T/C)(在C>0的情况下)
C值=(短语长度)×(正例集合中的频率)(在C=0的情况下)
T:包括感兴趣的短语并且长于该感兴趣的短语的短语的出现频率的总数
C:包括感兴趣的短语并且长于该感兴趣的短语的短语的基数(即,这些短语的数目)
在下文中,将具体地说明T和C(见图7)。
感兴趣短语:“特洛伊木马”
包括该感兴趣短语并且长于该感兴趣短语的短语:“特洛伊木马感染”
T=2:“特洛伊木马感染”的出现频率:2
C=1:包括感兴趣短语并且长于该感兴趣短语的短语:1
感兴趣短语:“特洛伊”
包括该感兴趣短语并且长于该感兴趣短语的短语:“特洛伊木马”和“特洛伊木马感染”
T=3+2=5:“特洛伊木马”的出现频率:3,以及“特洛伊木马感染”的出现频率:2
C=2:包括该感兴趣短语并且长于该感兴趣短语的短语为:2
感兴趣短语:“木马”
包括该感兴趣短语并且长于该感兴趣短语的短语:“特洛伊木马”、“特洛伊木马感染”和“木马感染”
T=3+2+2=7:“特洛伊木马”的出现频率:3,“特洛伊木马感染”的出现频率:2,以及“木马感染”的出现频率:2
C=3:包括该感兴趣短语并且长于该感兴趣短语的短语为:3
感兴趣短语:“特洛伊木马感染”
包括该感兴趣短语并且长于该感兴趣短语的短语:无
T=0
C=0
感兴趣短语:“木马感染”
包括该感兴趣短语并且长于该感兴趣短语的短语:“特洛伊木马感染”
T=2:“特洛伊木马感染”的出现频率:2
C=1:包括该感兴趣短语并且长于该感兴趣短语的短语:1
感兴趣短语:“感染”
包括该感兴趣短语并且长于该感兴趣短语的短语:“特洛伊木马感染”和“木马感染”
T=2+2=4:“特洛伊木马感染”的出现频率:2,以及“木马感染”的出现频率:2
C=2:包括该感兴趣短语并且长于该感兴趣短语的短语为:2
感兴趣短语:“电子邮件”
包括该感兴趣短语并且长于该感兴趣短语的短语:无
T=0
C=0
由于通过T和C的校正,计算“特洛伊木马”的有用度为2,“特洛伊”的有用度为0.5,“木马”的有用度为0.67,“特洛伊木马感染”的有用度为6,“木马感染”的有用度为0,“感染”的有用度为0,以及“电子邮件”的有用度为0。
“特洛伊木马感染”的有用度为6,而“木马感染”的有用度为0。该结果表明由于“木马感染”是在正例文档集合中必定用作“特洛伊木马感染”的表述的固定词组,所以“木马感染”的用语性(termproperty)低,并且如果存在“特洛伊木马感染”作为检测条件,则将“木马感染”添加为条件就没有意义。
另一方面,“特洛伊木马”的有用度为2。因为“特洛伊木马”具有除“特洛伊木马感染”外的应用示例,“特洛伊木马”的用语性和C值均高于“木马感染”。
用语性是表示作为一组短语的使用的容易性的指标。高用语性意味着作为一组短语更容易使用。
如上所述,将C值用作有用度导致包括在另一更长短语中的短语的更低值,消除了冗余检测条件的增加,并且实现字典精度的提高。
然后,检测条件判定单元22由:得分=特征度×有用度,计算“特洛伊木马”的得分为6,“特洛伊”的得分为1.5,“木马”的得分为2,“特洛伊木马感染”的得分为12,“木马感染”的得分为0,“感染”的得分为0,以及“电子邮件”的得分为2。例如,当将具有5或以上得分的短语用作检测条件时,检测条件判定单元22判定“特洛伊木马”和“特洛伊木马感染”适合检测条件。
-具体应用示例4-
在应用示例3中,可以使用在应用示例2中所述的校正值。在该示例中,校正值假定为“-1”。图8是每一短语的有用度(C值)和得分的另一示例。
C值的定义
C值=(短语长度-1)×(正例集合中的频率-T/C)(C>0的情况下)
C值=(短语长度-1)×(正例集合中的频率)(C=0的情况下)
T:包括感兴趣的短语并且长于该感兴趣的短语的短语的出现频率的总数
C:包括感兴趣的短语并且长于该感兴趣的短语的短语的基数(即,这些短语的数目)
短语长度项中的值“-1”与应用示例2中的校正值“-0.5”类似。换句话说,值“-1”是用于更突出短语的长度的校正值。
因此,有用度之间的差变得更显著。
-应用示例5-
仅对有用度不小于阈值的短语,特征度计算单元3计算短语的特征度,并且检测条件判定单元22判定短语是否适合检测条件。
与应用示例2相比,给出具体说明。图8是每一短语的有用度和得分的另一示例。
与应用示例2类似,有用度计算单元21计算“特洛伊木马”的有用度为4.5,“特洛伊”的有用度为1.5,“木马”的有用度为1.5,“特洛伊木马感染”的有用度为5,“木马感染”的有用度为3,“感染”的有用度为1,以及“电子邮件”的有用度为1。
特征度计算单元3例如仅计算具有有用度为3或以上的短语:“特洛伊木马”、“特洛伊木马感染”和“木马感染”的特征度。然后,检测条件判定单元22由:得分=特征度×有用度,计算“特洛伊木马”的得分为13.5,“特洛伊木马感染”的得分为10,以及“木马感染”的得分为6。例如,当具有得分为10或以上的短语用作检测条件时,检测条件判定单元22判定“特洛伊木马”和“特洛伊木马感染”适合检测条件。
在应用示例2中,使所有短语(7个短语)均经过特征度计算和判定,而在应用示例5中,仅使三个短语“特洛伊木马”、“特洛伊木马感染”和“木马感染”经过特征度计算和判定。然而,应用示例2和应用示例5具有相同的判定结果和相同的精度。
因此,能在保持精度的同时,减少计算量。
-补记-
应用示例1主要说明权利要求4和权利要求7的详情。应用示例2除权利要求4外,主要说明权利要求3。应用示例3和4主要说明权利要求5和权利要求6。应用示例5主要说明权利要求8。
本发明是生成用在文本信息监视系统中的字典的装置,并且还能应用于针对互联网等等的谣言监视系统或声誉提取系统。
-附记-
在上述示例性实施例中,每一单元可以由硬件构成,或可以通过计算机程序实现。在这种情况下,与上述类似的功能和操作能通过由在程序存储器中存储的程序操作的处理器实现。也可以由计算机程序仅实现一部分功能。
如在下述附记中,能描述上述一些或所有示例性实施例,但不限于下文。
本发明是一种用于监视文本信息的字典生成装置,其被用在文本信息监视系统中,并且生成登记检测条件的字典,该字典生成装置包括:
特征度计算单元,对于作为检测条件的候选的短语,计算表示该短语与作为监视对象的信息内容匹配的程度的特征度;以及
短语有用度判定单元,基于特征度和表示由该短语限定的含义的少许模糊度的有用度,判定短语是否适合检测条件。
在根据本发明的用于监视文本信息的字典生成装置中,短语有用度判定单元优选地包括:
有用度计算单元,其基于短语的长度,计算有用度,以及
检测条件判定单元,其基于所述特征度和由有用度计算单元计算的有用度,判定短语是否适合检测条件。
在本发明的用于监视文本信息的字典生成装置中,有用度计算单元优选地基于短语的长度和文档集合中的频率,计算有用度。
通常,更长长度的短语导致含义的更少的模糊度,并且导致检测条件的更高匹配率。在本发明中,通过上述结构,对于具有更长长度的短语给予优先级。因此,与现有技术相比,可以实现高精度检测。
例如,有用度计算单元基于短语的长度或其对数值与文档集合中的频率或其对数值的乘积,计算有用度。
在本发明的用于监视文本信息的字典生成装置中,有用度计算单元优选地基于短语的长度、文档集合中的频率、以及表示短语之间的包含关系的指标,计算有用度。
更优选地,
当长于感兴趣短语的另一短语包括该感兴趣短语时,
表示短语之间的包含关系的指标是另一短语出现的频率的总数与另一短语的数量之间的比。
考虑包含关系导致包括在另一更长短语中的短语的较低值,消除了冗余检测条件的增加,并且实现了字典精度的提高。
在本发明的用于监视文本信息的字典生成装置中,优选地,
检测条件判定单元基于有用度或其对数值与特征度或其对数值的乘积,判定短语是否适合检测条件。
因此,可以考虑有用度,执行检测。
在本发明的用于监视文本信息的字典生成装置中,更优选地,
对于由有用度计算单元所计算出的有用度不小于阈值的短语,
特征度计算单元计算特征度,并且
检测条件判定单元判定该短语是否适合检测条件。
因此,能在保持精度的同时,降低计算量。
本发明是一种用于监视文本信息的字典生成方法,该方法是生成被用在文本信息监视系统中的字典的方法,
其中,监视文本信息的字典生成装置:
对于作为检测条件的候选的短语,计算表示短语与作为监视对象的信息内容匹配的程度的特征度;
基于特征度和表示由短语所限定的含义的少许模糊度的有用度,判定短语是否适合检测条件;并且
输出被判定为适合的短语并且将该短语登记为检测条件。
在本发明的用于监视文本信息的字典生成方法中,优选地,
基于短语的长度,计算有用度;以及
基于有用度和特征度,判定该短语是否适合检测条件。
更优选地,基于短语的长度和文档集合中的频率,计算有用度。
例如,
基于短语的长度或其对数值与文档集合中的频率或其对数值的乘积,计算有用度。
在本发明用于监视文本信息的字典生成方法中,优选地,
基于短语的长度、文档集合中的频率和表示短语之间的包含关系的指标,计算有用度。
更优选地,
当长于感兴趣短语的另一短语包括该感兴趣短语时,
表示短语之间的包含关系的所述指标是该另一短语出现的频率的总数与该另一短语的数量之间的比。
在本发明用于监视文本信息的字典生成方法中,优选地,
基于有用度或其对数值与特征度或其对数值的乘积,判定该短语是否适合检测条件。
在本发明用于监视文本信息的字典生成方法中,更优选地,
对于由有用度计算单元所计算出的有用度不小于阈值的短语,
计算特征度,并且
判定该短语是否适合检测条件。
本发明是一种用于监视文本信息的字典生成程序,其使用于监视文本信息的字典生成装置执行以下各处理:
对作为检测条件的候选的短语,计算表示短语与作为监视对象的信息内容匹配的程度的特征度;
基于特征度和表示由短语所限定的含义的少许模糊度的有用度,判定短语是否适合检测条件;并且
输出被判定为适合的短语并且将该短语登记为检测条件。
本发明的用于监视文本信息的字典生成程序优选地使得执行以下各处理:
基于短语的长度,计算有用度;以及
基于有用度和特征度,判定该短语是否适合检测条件。
在本发明的用于监视文本信息的字典生成程序中,更优选地,
在有用度计算处理中,基于短语的长度和文档集合中的频率,计算有用度。
例如,
在有用度计算处理中,基于短语的长度或其对数值与文档集合中的频率或其对数值的乘积,计算有用度。
在本发明的用于监视文本信息的字典生成程序中,优选地,
在有用度计算处理中,基于短语的长度、文档集合中的频率和表示短语之间的包含关系的指标,计算有用度。
更优选地,
当长于感兴趣短语的另一短语包括该感兴趣短语时,
表示短语之间的包含关系的所述指标是该另一短语出现的频率的总和与该另一短语的数量之间的比。
在本发明的用于监视文本信息的字典生成程序中,优选地,
在检测条件判定处理中,基于有用度或其对数值与特征度或其对数值的乘积,判定该短语是否适合检测条件。
在本发明的监视文本信息的字典生成程序中,更优选地,
对由有用度计算处理所计算出的有用度不小于阈值的短语,
在有用度计算处理中,计算特征度;并且
在检测条件判定处理中,判定该短语是否适合检测条件。
本申请基于并要求2012年9月27日提交的日本专利申请No.2012-213536的优先权,其全部内容在此引入以供参考。
[参考符号清单]
1 短语提取单元
2 短语有用度判定单元
3 特征度计算单元
4 输出单元
21 有用度计算单元
22 检测条件判定单元
Claims (10)
1.一种用于监视文本信息的字典生成装置,其被用在文本信息监视系统中并且生成登记有检测条件的字典,所述字典生成装置包括:
特征度计算单元,所述特征度计算单元对于作为检测条件的候选的短语,来计算表示该短语与作为监视对象的信息内容匹配的程度的特征度;以及
短语有用度判定单元,所述短语有用度判定单元基于所述特征度和表示由该短语所限定的含义的少许模糊度的有用度,来判定所述短语是否适合检测条件。
2.根据权利要求1所述的用于监视文本信息的字典生成装置,其中,所述短语有用度判定单元包括:
有用度计算单元,所述有用度计算单元基于所述短语的长度,来计算所述有用度,以及
检测条件判定单元,所述检测条件判定单元基于所述特征度以及由所述有用度计算单元所计算的有用度,来判定所述短语是否适合检测条件。
3.根据权利要求2所述的用于监视文本信息的字典生成装置,其中,
所述有用度计算单元基于所述短语的长度和文档集合中的频率,来计算有用度。
4.根据权利要求3所述的用于监视文本信息的字典生成装置,其中,
所述有用度计算单元基于所述短语的长度或该长度的对数值与文档集合中的频率或该频率的对数值的乘积,来计算有用度。
5.根据权利要求2所述的用于监视文本信息的字典生成装置,其中,
所述有用度计算单元基于所述短语的长度、文档集合中的频率、以及表示短语之间的包含关系的指标,来计算有用度。
6.根据权利要求5所述的用于监视文本信息的字典生成装置,其中,
当长于感兴趣的短语的另一短语包括该感兴趣的短语时,
表示短语之间的包含关系的所述指标是所述另一短语出现的频率的总数与所述另一短语的数量之间的比。
7.根据权利要求2至6所述的用于监视文本信息的字典生成装置,其中,
所述检测条件判定单元基于所述有用度或该有用度的对数值与所述特征度或该特征度的对数值的乘积,来判定所述短语是否适合检测条件。
8.根据权利要求2至7所述的用于监视文本信息的字典生成装置,其中,
对于由所述有用度计算单元所计算出的有用度不小于阈值的短语,
所述特征度计算单元计算特征度,并且
所述检测条件判定单元判定所述短语是否适合检测条件。
9.一种用于监视文本信息的字典生成方法,所述字典生成方法是用于生成被用在文本信息监视系统中的字典的方法,
其中,
用于监视文本信息的字典生成装置:
对于作为检测条件的候选的短语,来计算表示所述短语与作为监视对象的信息内容匹配的程度的特征度;
基于所述特征度和表示由所述短语所限定的含义的少许模糊度的有用度,来判定所述短语是否适合检测条件;以及
输出被判定为适合的短语,并且将该短语登记为检测条件。
10.一种用于监视文本信息的字典生成程序,所述程序使用于监视文本信息的字典生成装置执行以下各处理:
对于作为检测条件的候选的短语,来计算表示所述短语与作为监视对象的信息内容匹配的程度的特征度;
基于所述特征度和表示由所述短语所限定的含义的少许模糊度的有用度,来判定所述短语是否适合检测条件;以及
输出被判定为适合的短语,并且将该短语登记为检测条件。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-213536 | 2012-09-27 | ||
JP2012213536 | 2012-09-27 | ||
PCT/JP2013/076094 WO2014050981A1 (ja) | 2012-09-27 | 2013-09-26 | テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104685493A true CN104685493A (zh) | 2015-06-03 |
Family
ID=50388376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380050748.6A Pending CN104685493A (zh) | 2012-09-27 | 2013-09-26 | 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20150220632A1 (zh) |
JP (1) | JP6237632B2 (zh) |
CN (1) | CN104685493A (zh) |
SG (1) | SG11201502379UA (zh) |
WO (1) | WO2014050981A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108885617A (zh) * | 2016-03-23 | 2018-11-23 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
CN110612524A (zh) * | 2017-06-16 | 2019-12-24 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及程序 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6525051B2 (ja) * | 2015-03-18 | 2019-06-05 | 日本電気株式会社 | テキスト監視システム、テキスト監視方法、及び、プログラム |
JP6771992B2 (ja) * | 2016-08-12 | 2020-10-21 | 前田建設工業株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10521590B2 (en) * | 2016-09-01 | 2019-12-31 | Microsoft Technology Licensing Llc | Detection dictionary system supporting anomaly detection across multiple operating environments |
CN109299261A (zh) * | 2018-09-30 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 分析谣言数据的方法、装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063283A (ja) * | 2003-08-19 | 2005-03-10 | Ricoh Co Ltd | 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体 |
CN1679022A (zh) * | 2002-07-23 | 2005-10-05 | 捷讯研究有限公司 | 用于构建和使用定制单词列表的系统和方法 |
US20060242191A1 (en) * | 2003-12-26 | 2006-10-26 | Hiroshi Kutsumi | Dictionary creation device and dictionary creation method |
JP2009015394A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置 |
JP2009037420A (ja) * | 2007-08-01 | 2009-02-19 | Yahoo Japan Corp | 有害コンテンツの評価付与装置、プログラム及び方法 |
US20100005092A1 (en) * | 2007-02-16 | 2010-01-07 | Funnelback Pty Ltd | Search result sub-topic identification system and method |
CN101876968A (zh) * | 2010-05-06 | 2010-11-03 | 复旦大学 | 对网络文本与手机短信进行不良内容识别的方法 |
US20110161144A1 (en) * | 2006-03-23 | 2011-06-30 | Nec Corporation | Information extraction system, information extraction method, information extraction program, and information service system |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002149187A (ja) * | 2000-11-07 | 2002-05-24 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2003036093A (ja) * | 2001-07-23 | 2003-02-07 | Japan Science & Technology Corp | 音声入力検索システム |
JP2003281159A (ja) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | 文書処理装置及び文書処理方法、文書処理プログラム |
JP2005346598A (ja) * | 2004-06-07 | 2005-12-15 | Sangaku Renkei Kiko Kyushu:Kk | ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法 |
JP4446313B2 (ja) * | 2006-12-15 | 2010-04-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US20100138852A1 (en) * | 2007-05-17 | 2010-06-03 | Alan Hirsch | System and method for the presentation of interactive advertising quizzes |
JP5321583B2 (ja) * | 2008-04-01 | 2013-10-23 | 日本電気株式会社 | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム |
KR101274419B1 (ko) * | 2010-12-30 | 2013-06-17 | 엔에이치엔(주) | 사용자 그룹별로 키워드의 순위를 결정하는 시스템 및 방법 |
US8463799B2 (en) * | 2011-06-29 | 2013-06-11 | International Business Machines Corporation | System and method for consolidating search engine results |
JP5942559B2 (ja) * | 2012-04-16 | 2016-06-29 | 株式会社デンソー | 音声認識装置 |
WO2014040003A1 (en) * | 2012-09-07 | 2014-03-13 | Carnegie Mellon University | Methods for hybrid gpu/cpu data processing |
-
2013
- 2013-09-26 CN CN201380050748.6A patent/CN104685493A/zh active Pending
- 2013-09-26 JP JP2014538594A patent/JP6237632B2/ja not_active Expired - Fee Related
- 2013-09-26 SG SG11201502379UA patent/SG11201502379UA/en unknown
- 2013-09-26 WO PCT/JP2013/076094 patent/WO2014050981A1/ja active Application Filing
- 2013-09-26 US US14/429,450 patent/US20150220632A1/en not_active Abandoned
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1679022A (zh) * | 2002-07-23 | 2005-10-05 | 捷讯研究有限公司 | 用于构建和使用定制单词列表的系统和方法 |
JP2005063283A (ja) * | 2003-08-19 | 2005-03-10 | Ricoh Co Ltd | 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体 |
US20060242191A1 (en) * | 2003-12-26 | 2006-10-26 | Hiroshi Kutsumi | Dictionary creation device and dictionary creation method |
US20110161144A1 (en) * | 2006-03-23 | 2011-06-30 | Nec Corporation | Information extraction system, information extraction method, information extraction program, and information service system |
US20100005092A1 (en) * | 2007-02-16 | 2010-01-07 | Funnelback Pty Ltd | Search result sub-topic identification system and method |
JP2009015394A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置 |
JP2009037420A (ja) * | 2007-08-01 | 2009-02-19 | Yahoo Japan Corp | 有害コンテンツの評価付与装置、プログラム及び方法 |
CN101876968A (zh) * | 2010-05-06 | 2010-11-03 | 复旦大学 | 对网络文本与手机短信进行不良内容识别的方法 |
Non-Patent Citations (5)
Title |
---|
方延风: "科技项目查重中特征词TF-IDF值计算方法的改进", 《情报检索》 * |
王树梅: "信息检索相关技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
程军: "基于统计的文本分类技术研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 * |
裘江南 等: "组织知识结构构建方法及在专利文献中的运用", 《科研管理》 * |
陆浩: "网络舆情监测研究与原型实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108885617A (zh) * | 2016-03-23 | 2018-11-23 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
CN108885617B (zh) * | 2016-03-23 | 2022-05-31 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
CN110612524A (zh) * | 2017-06-16 | 2019-12-24 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及程序 |
CN110612524B (zh) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及记录介质 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014050981A1 (ja) | 2016-08-22 |
WO2014050981A1 (ja) | 2014-04-03 |
US20150220632A1 (en) | 2015-08-06 |
SG11201502379UA (en) | 2015-05-28 |
JP6237632B2 (ja) | 2017-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106445998B (zh) | 一种基于敏感词的文本内容审核方法及系统 | |
US8285541B2 (en) | System and method for handling multiple languages in text | |
US8983826B2 (en) | Method and system for extracting shadow entities from emails | |
CN104685493A (zh) | 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 | |
US8380488B1 (en) | Identifying a property of a document | |
US10956677B2 (en) | Statistical preparation of data using semantic clustering | |
Vogel et al. | Robust language identification in short, noisy texts: Improvements to liga | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
KR20120042829A (ko) | 쓰기 체계 및 언어 검출 | |
CN110162750A (zh) | 文本相似度检测方法、电子设备及计算机可读存储介质 | |
JP2012108570A (ja) | 単語意味関係抽出装置及び単語意味関係抽出方法 | |
Ye et al. | Unknown Chinese word extraction based on variety of overlapping strings | |
Álvarez-Carmona et al. | Semantically-informed distance and similarity measures for paraphrase plagiarism identification | |
US9633009B2 (en) | Knowledge-rich automatic term disambiguation | |
CN113986950A (zh) | 一种sql语句处理方法、装置、设备及存储介质 | |
CN113408660A (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN113807091B (zh) | 词语挖掘方法、装置、电子设备和可读存储介质 | |
CN103218388A (zh) | 文档相似性评价系统、文档相似性评价方法以及计算机程序 | |
Zhang et al. | Chinese novelty mining | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns | |
JP6623840B2 (ja) | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム | |
Attia et al. | GWU-HASP-2015@ QALB-2015 shared task: priming spelling candidates with probability | |
CN113792546A (zh) | 语料库的构建方法、装置、设备以及存储介质 | |
Haq et al. | Correction of whitespace and word segmentation in noisy Pashto text using CRF | |
El-Shayeb et al. | Comparative analysis of different text segmentation algorithms on Arabic news stories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150603 |
|
WD01 | Invention patent application deemed withdrawn after publication |