CN111046651A

CN111046651A - 一种中文评论分析方法

Info

Publication number: CN111046651A
Application number: CN201911372086.XA
Authority: CN
Inventors: 董君
Original assignee: Zibo Vocational Institute
Current assignee: Zibo Vocational Institute
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-04-21
Anticipated expiration: 2039-12-27
Also published as: CN111046651B

Abstract

本发明一种中文评论分析方法包括如下步骤：将主语、谓语、宾语、其他语中按每项匹配的汉语拼音的字母个数构建图表；根据所述图表框选的面积而判定匹配值，若匹配值大于等于预设阈值，则判定所述中文评论与所述字幕数据匹配，并将所述中文评论与所述流媒体合成并输出至用户终端，若小于预设阈值，则判定所述中文评论与所述字幕数据不匹配，而删除所述中文评论。本发明通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成，从而剔除掉非法评论。

Description

一种中文评论分析方法

技术领域

本发明涉及一种数据分析方法，特别是涉及一种用于中文评论的数据分析方法。

背景技术

中文评论一直是互联网的核心。在网上，人们看着文字评论、弹幕等多种评论而可以发现视频内容相关联的很多信息，使视频内容观看起来更加有意思。

然而，目前无论是文字评论或者弹幕都会出现很多与视频内容无关的非法词汇，其包括了非法评论，因此，目前亟需一种能够剔除上述评论，以及在评论过多状况下分析评论是否与内容有关的中文评论分析方法。

发明内容

本发明要解决的技术问题是提供一种能够剔除上述评论，以及在评论过多状况下分析评论是否与内容有关的中文评论分析方法。

本发明一种中文评论分析方法，包括如下步骤

获取中文评论的第一文字信息和第一时间信息；

根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论；

根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分，将其分为主语、谓语、宾语、其他语；

将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音，并将主语、谓语、宾语、其他语中按每项匹配的汉语拼音的字母个数构建图表；

根据所述图表框选的面积而判定匹配值，若匹配值大于等于预设阈值，则判定所述中文评论与所述字幕数据匹配，并将所述中文评论与所述流媒体合成并输出至用户终端，若小于预设阈值，则判定所述中文评论与所述字幕数据不匹配，而删除所述中文评论。

本发明一种中文评论分析方法，包括如下步骤

获取中文评论的第一文字信息和第一时间信息；

将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音，并将主语、谓语、宾语、其他语中按每项匹配的字形输入法对应的字母的个数构建图表；

本发明一种中文评论分析方法，其中所述构建图表的方式为：

将其按照主语、谓语、宾语、其他语的顺序构建柱状图，其中，所述柱状图的宽度为1，柱状图的高度与每个主语、谓语、宾语、其他语的汉语拼音的字母个数相同。

本发明一种中文评论分析方法，其中判定所述预设阈值的方式为：

分别按照主语、谓语、宾语、其他语的汉语拼音的字母个数a₁、a₂、a₃、 a₄按如下公式输出预设阈值b：

按照谓语、宾语、主语、其他语的顺序构建折线图，其中，每组数据的间距为1，每组数据的高度为匹配个数，以所述折现为图像的顶部边界，以穿过折现的两端的竖直直线为图像的左侧边界和右侧边界，以x轴为图像的底部边界，所述图像面积为匹配值。

本发明一种中文评论分析方法，其中所述预设阈值优选为[3，100)。

本发明一种中文评论分析方法，其中所述预设阈值优选为3。

本发明一种中文评论分析方法，其中所述字形输入法为五笔输入法。

本发明一种中文评论分析方法，其中所述字形输入法为数字王码。

本发明一种中文评论分析方法与现有技术不同之处在于本发明一种中文评论分析方法通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成，从而剔除掉非法评论。

下面结合附图对本发明的一种中文评论分析方法作进一步说明。

附图说明

图1是一种中文评论分析方法的方法流程图；

图2是匹配信息柱状图；

图3是匹配信息折线图。

具体实施方式

如图1～3所示，本发明一种中文评论分析方法包括如下步骤

获取中文评论的第一文字信息和第一时间信息；

本发明通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成，从而剔除掉非法评论。其中，由于中国地大物博、方言众多，因此，将其通过汉语拼音的匹配字母数量可尽可能地将音近词汇进行匹配，从而也能达到与字幕内容相匹配的程度。

例如，“很壮”和“很棒”、“好帅”和“好衰”都可以算是与字幕数据内容相匹配的中文评论，其远远区别于“色情网站......”等非法中文评论。

其中相匹配并不一定是相同立场或相同数据，而使大致相同的或相近领域的内容即可，因此，其可在相同事情长表示不同立场或不同的观点。这样的中文评论更具有欣赏性。

其中，预设时间范围可为前后15秒，当然也可为其他范围。

当然，本发明的一种变形还可为：一种中文评论分析方法，包括如下步骤

获取中文评论的第一文字信息和第一时间信息；

本发明通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成，从而剔除掉非法评论。

其中，字形输入法可为五笔输入法或数字王码。

其中，由于中国地大物博、象形文字众多，因此，将其通过汉语字形的匹配字形输入法的字母数量可尽可能地将音近词汇进行匹配，从而也能达到与字幕内容相匹配的程度。

例如，“很壮”即“TVEY UFG”和“很状”即“TVEY UDY”、“脉搏”即“EYNI RGEF”和“脉膊”即“EYNI EGEF”都可以算是与字幕数据内容相匹配的中文评论，其远远区别于“色情网站......”等非法中文评论。

上述构建图表的方式可参考拼音，此处不赘述举例。

优选地，所述构建图表的方式为：

本发明通过上述方式可将固定柱状图的宽度，从而使柱状图框选的面积可控，以致于对于整个句子与句子的关联程度可控。

优选地，判定所述预设阈值的方式为：

本发明通过上述方式计算出的预设阈值b，可根据每个句子的不同关联程度和关联性来整体评价预设阈值b，并且提升了关联性影响较强的宾语、主语的权重而弱化了其他的权重，从而更加符合匹配的语意。

在中文中，每个中文评论或每句话均可配置为：主语、谓语、宾语、其他语，例如：字幕数据的第二文字信息为“我上午吃西瓜”即“wo shang wu chi xi gua”主语2个字母、谓语3个字母、宾语5个字母、其他语7个字母，“我”即“wo”是主语，“上午”即“shang wu”是时间状语，在这里可归为主谓宾以外的其他语，“吃”即“chi”是谓，“西瓜”即“xi gua”是宾语。本发明将其中的每一项进行对比，并按照其总权重来进行比较，从而筛选出最为接近的中文评论来与流媒体合成并发送到用户终端，以尽可能剔除与流媒体的字幕或内容无关的中文评论。预设时间范围为第二文字数据的前后15 秒，也就是说，在同一时间轴上，第一时间在第二时间的前后15秒内的中文评论为：中文评论的第一文字信息为“上午吃西瓜”即“shangwu chi xi gua”、“我吃西瓜wo chi xi gua”、“我上午吃瓜wo shang wu chi gua”、“下午吃面条”“小偷”“我偷吃西瓜”预设阈值为5时，“上午吃西瓜”即“shang wu chi xi gua”匹配的字母为，主语“0”、谓语“3”、宾语“5”、其他“7”。构建的图表可为柱状图或折线图。如果是柱状图，柱体宽度为1，高度的单位为匹配个数，那么柱状图的面积为15。如下表及图2所示：

	主语	其他语	谓语	宾语
					匹配字母(个)	0	7	3	5

因此，如果上述面积为15，大于预设阈值5，则将此条中文评论以相同时间轴与流媒体合成并输出至用户终端。从而在大数据的筛选中可得到一个更加贴近于字幕数据的中文评论。

优选地，所述构建图表的方式为：

本发明通过上述排布顺序可依照一定的木桶原理而将匹配程度而提高匹配程度较为均衡的句子的匹配值，并且降低可有可无的其他语的权重，提高了主语、宾语的权重，从而增加匹配合理性。

当然，也可构建折现图：

在中文中，每个中文评论或每句话均可配置为：主语、谓语、宾语、其他语，例如：字幕数据的第二文字信息为“我上午吃西瓜”即“wo shang wu chi xi gua”主语2个字母、谓语3个字母、宾语5个字母、其他语7个字母，“我”即“wo”是主语，“上午”即“shang wu”是时间状语，在这里可归为主谓宾以外的其他语，“吃”即“chi”是谓，“西瓜”即“xi gua”是宾语。本发明将其中的每一项进行对比，并按照其总权重来进行比较，从而筛选出最为接近的中文评论来与流媒体合成并发送到用户终端，以尽可能剔除与流媒体的字幕或内容无关的中文评论。预设时间范围为第二文字数据的前后15 秒，也就是说，在同一时间轴上，第一时间在第二时间的前后15秒内的中文评论为：中文评论的第一文字信息为“上午吃西瓜”即“shangwu chi xi gua”、“我吃西瓜wo chi xi gua”、“我上午吃瓜wo shang wu chi gua”、“下午吃面条”“小偷”“我偷吃西瓜”预设阈值为3时，“上午吃西瓜”即“shang wu chi xi gua”匹配的字母为，主语“0”、谓语“3”、宾语“5”、其他“7”。构建的图表可为柱状图或折线图。如果是折线图，其排列顺序可为：谓语、宾语、主语、其他语，每组数据的间距为1，高度的单位为匹配个数，那么折线图的面积为15。如下表及图3所示：

	谓语	宾语	主语	其他语
					匹配字母(个)	3	5	0	7

其中，需要说明的是，由于上述折现图并非封闭图形，因此，上述折线图的面积为，以折线为图像的顶部，以折线最左侧的点构建竖直直线为图像的最左侧，以折线的最右侧的点构建竖直直线为图像的最右侧，以X轴为图像的最下侧，所述图像的面积为折线图的面积。

其中，上述折线图的面积可为：(3+5)1/2+5*1/2+7*1/2＝4+2.5+3.5＝10，因此，如果上述面积为10，大于预设阈值3，则将此条中文评论以相同时间轴与流媒体合成并输出至用户终端。从而在大数据的筛选中可得到一个更加贴近于字幕数据的中文评论。

其中，所述中文评论可为视频弹幕，也可为留言板上的评论。而流媒体可为点播视频或直播视频。

优选地，所述预设阈值优选为[3，100)。

优选地，所述预设阈值优选为3。

优选地，所述字形输入法为五笔输入法。

优选地，所述字形输入法为数字王码。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种中文评论分析方法，其特征在于：包括如下步骤

获取中文评论的第一文字信息和第一时间信息；

2.一种中文评论分析方法，其特征在于：包括如下步骤

获取中文评论的第一文字信息和第一时间信息；

3.根据权利要求1或2所述的一种中文评论分析方法，其特征在于：所述构建图表的方式为：

4.根据权利要求3所述的一种中文评论分析方法，其特征在于：判定所述预设阈值的方式为：

分别按照主语、谓语、宾语、其他语的汉语拼音的字母个数a₁、a₂、a₃、a₄按如下公式输出预设阈值b：

5.根据权利要求1或2所述的一种中文评论分析方法，其特征在于：所述构建图表的方式为：

6.根据权利要求4所述的一种中文评论分析方法，其特征在于：所述预设阈值优选为[3，100)。

7.根据权利要求4所述的一种中文评论分析方法，其特征在于：所述预设阈值优选为3。

8.根据权利要求2所述的一种中文评论分析方法，其特征在于：所述字形输入法为五笔输入法。

9.根据权利要求2所述的一种中文评论分析方法，其特征在于：所述字形输入法为数字王码。