CN111046651A - 一种中文评论分析方法 - Google Patents
一种中文评论分析方法 Download PDFInfo
- Publication number
- CN111046651A CN111046651A CN201911372086.XA CN201911372086A CN111046651A CN 111046651 A CN111046651 A CN 111046651A CN 201911372086 A CN201911372086 A CN 201911372086A CN 111046651 A CN111046651 A CN 111046651A
- Authority
- CN
- China
- Prior art keywords
- chinese
- comment
- comments
- subject
- predicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
- H04N21/4351—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reassembling additional data, e.g. rebuilding an executable program from recovered modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明一种中文评论分析方法包括如下步骤:将主语、谓语、宾语、其他语中按每项匹配的汉语拼音的字母个数构建图表;根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。本发明通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成,从而剔除掉非法评论。
Description
技术领域
本发明涉及一种数据分析方法,特别是涉及一种用于中文评论的数据分析方法。
背景技术
中文评论一直是互联网的核心。在网上,人们看着文字评论、弹幕等多种评论而可以发现视频内容相关联的很多信息,使视频内容观看起来更加有意思。
然而,目前无论是文字评论或者弹幕都会出现很多与视频内容无关的非法词汇,其包括了非法评论,因此,目前亟需一种能够剔除上述评论,以及在评论过多状况下分析评论是否与内容有关的中文评论分析方法。
发明内容
本发明要解决的技术问题是提供一种能够剔除上述评论,以及在评论过多状况下分析评论是否与内容有关的中文评论分析方法。
本发明一种中文评论分析方法,包括如下步骤
获取中文评论的第一文字信息和第一时间信息;
根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论;
根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分,将其分为主语、谓语、宾语、其他语;
将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音,并将主语、谓语、宾语、其他语中按每项匹配的汉语拼音的字母个数构建图表;
根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。
本发明一种中文评论分析方法,包括如下步骤
获取中文评论的第一文字信息和第一时间信息;
根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论;
根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分,将其分为主语、谓语、宾语、其他语;
将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音,并将主语、谓语、宾语、其他语中按每项匹配的字形输入法对应的字母的个数构建图表;
根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。
本发明一种中文评论分析方法,其中所述构建图表的方式为:
将其按照主语、谓语、宾语、其他语的顺序构建柱状图,其中,所述柱状图的宽度为1,柱状图的高度与每个主语、谓语、宾语、其他语的汉语拼音的字母个数相同。
本发明一种中文评论分析方法,其中判定所述预设阈值的方式为:
本发明一种中文评论分析方法,其中所述构建图表的方式为:
按照谓语、宾语、主语、其他语的顺序构建折线图,其中,每组数据的间距为1,每组数据的高度为匹配个数,以所述折现为图像的顶部边界,以穿过折现的两端的竖直直线为图像的左侧边界和右侧边界,以x轴为图像的底部边界,所述图像面积为匹配值。
本发明一种中文评论分析方法,其中所述预设阈值优选为[3,100)。
本发明一种中文评论分析方法,其中所述预设阈值优选为3。
本发明一种中文评论分析方法,其中所述字形输入法为五笔输入法。
本发明一种中文评论分析方法,其中所述字形输入法为数字王码。
本发明一种中文评论分析方法与现有技术不同之处在于本发明一种中文评论分析方法通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成,从而剔除掉非法评论。
下面结合附图对本发明的一种中文评论分析方法作进一步说明。
附图说明
图1是一种中文评论分析方法的方法流程图;
图2是匹配信息柱状图;
图3是匹配信息折线图。
具体实施方式
如图1~3所示,本发明一种中文评论分析方法包括如下步骤
获取中文评论的第一文字信息和第一时间信息;
根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论;
根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分,将其分为主语、谓语、宾语、其他语;
将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音,并将主语、谓语、宾语、其他语中按每项匹配的汉语拼音的字母个数构建图表;
根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。
本发明通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成,从而剔除掉非法评论。其中,由于中国地大物博、方言众多,因此,将其通过汉语拼音的匹配字母数量可尽可能地将音近词汇进行匹配,从而也能达到与字幕内容相匹配的程度。
例如,“很壮”和“很棒”、“好帅”和“好衰”都可以算是与字幕数据内容相匹配的中文评论,其远远区别于“色情网站......”等非法中文评论。
其中相匹配并不一定是相同立场或相同数据,而使大致相同的或相近领域的内容即可,因此,其可在相同事情长表示不同立场或不同的观点。这样的中文评论更具有欣赏性。
其中,预设时间范围可为前后15秒,当然也可为其他范围。
当然,本发明的一种变形还可为:一种中文评论分析方法,包括如下步骤
获取中文评论的第一文字信息和第一时间信息;
根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论;
根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分,将其分为主语、谓语、宾语、其他语;
将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音,并将主语、谓语、宾语、其他语中按每项匹配的字形输入法对应的字母的个数构建图表;
根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。
本发明通过上述方式可根据中文评论的读法而将与流媒体关联的、特别是与流媒体的字幕数据关联的中文评论挑选出并与流媒体合成,从而剔除掉非法评论。
其中,字形输入法可为五笔输入法或数字王码。
其中,由于中国地大物博、象形文字众多,因此,将其通过汉语字形的匹配字形输入法的字母数量可尽可能地将音近词汇进行匹配,从而也能达到与字幕内容相匹配的程度。
例如,“很壮”即“TVEY UFG”和“很状”即“TVEY UDY”、“脉搏”即“EYNI RGEF”和“脉膊”即“EYNI EGEF”都可以算是与字幕数据内容相匹配的中文评论,其远远区别于“色情网站......”等非法中文评论。
其中相匹配并不一定是相同立场或相同数据,而使大致相同的或相近领域的内容即可,因此,其可在相同事情长表示不同立场或不同的观点。这样的中文评论更具有欣赏性。
上述构建图表的方式可参考拼音,此处不赘述举例。
优选地,所述构建图表的方式为:
将其按照主语、谓语、宾语、其他语的顺序构建柱状图,其中,所述柱状图的宽度为1,柱状图的高度与每个主语、谓语、宾语、其他语的汉语拼音的字母个数相同。
本发明通过上述方式可将固定柱状图的宽度,从而使柱状图框选的面积可控,以致于对于整个句子与句子的关联程度可控。
优选地,判定所述预设阈值的方式为:
本发明通过上述方式计算出的预设阈值b,可根据每个句子的不同关联程度和关联性来整体评价预设阈值b,并且提升了关联性影响较强的宾语、主语的权重而弱化了其他的权重,从而更加符合匹配的语意。
在中文中,每个中文评论或每句话均可配置为:主语、谓语、宾语、其他语,例如:字幕数据的第二文字信息为“我上午吃西瓜”即“wo shang wu chi xi gua”主语2个字母、谓语3个字母、宾语5个字母、其他语7个字母,“我”即“wo”是主语,“上午”即“shang wu”是时间状语,在这里可归为主谓宾以外的其他语,“吃”即“chi”是谓,“西瓜”即“xi gua”是宾语。本发明将其中的每一项进行对比,并按照其总权重来进行比较,从而筛选出最为接近的中文评论来与流媒体合成并发送到用户终端,以尽可能剔除与流媒体的字幕或内容无关的中文评论。预设时间范围为第二文字数据的前后15 秒,也就是说,在同一时间轴上,第一时间在第二时间的前后15秒内的中文评论为:中文评论的第一文字信息为“上午吃西瓜”即“shangwu chi xi gua”、“我吃西瓜wo chi xi gua”、“我上午吃瓜wo shang wu chi gua”、“下午吃面条”“小偷”“我偷吃西瓜”预设阈值为5时,“上午吃西瓜”即“shang wu chi xi gua”匹配的字母为,主语“0”、谓语“3”、宾语“5”、其他“7”。构建的图表可为柱状图或折线图。如果是柱状图,柱体宽度为1,高度的单位为匹配个数,那么柱状图的面积为15。如下表及图2所示:
主语 | 其他语 | 谓语 | 宾语 | |
匹配字母(个) | 0 | 7 | 3 | 5 |
因此,如果上述面积为15,大于预设阈值5,则将此条中文评论以相同时间轴与流媒体合成并输出至用户终端。从而在大数据的筛选中可得到一个更加贴近于字幕数据的中文评论。
优选地,所述构建图表的方式为:
按照谓语、宾语、主语、其他语的顺序构建折线图,其中,每组数据的间距为1,每组数据的高度为匹配个数,以所述折现为图像的顶部边界,以穿过折现的两端的竖直直线为图像的左侧边界和右侧边界,以x轴为图像的底部边界,所述图像面积为匹配值。
本发明通过上述排布顺序可依照一定的木桶原理而将匹配程度而提高匹配程度较为均衡的句子的匹配值,并且降低可有可无的其他语的权重,提高了主语、宾语的权重,从而增加匹配合理性。
当然,也可构建折现图:
在中文中,每个中文评论或每句话均可配置为:主语、谓语、宾语、其他语,例如:字幕数据的第二文字信息为“我上午吃西瓜”即“wo shang wu chi xi gua”主语2个字母、谓语3个字母、宾语5个字母、其他语7个字母,“我”即“wo”是主语,“上午”即“shang wu”是时间状语,在这里可归为主谓宾以外的其他语,“吃”即“chi”是谓,“西瓜”即“xi gua”是宾语。本发明将其中的每一项进行对比,并按照其总权重来进行比较,从而筛选出最为接近的中文评论来与流媒体合成并发送到用户终端,以尽可能剔除与流媒体的字幕或内容无关的中文评论。预设时间范围为第二文字数据的前后15 秒,也就是说,在同一时间轴上,第一时间在第二时间的前后15秒内的中文评论为:中文评论的第一文字信息为“上午吃西瓜”即“shangwu chi xi gua”、“我吃西瓜wo chi xi gua”、“我上午吃瓜wo shang wu chi gua”、“下午吃面条”“小偷”“我偷吃西瓜”预设阈值为3时,“上午吃西瓜”即“shang wu chi xi gua”匹配的字母为,主语“0”、谓语“3”、宾语“5”、其他“7”。构建的图表可为柱状图或折线图。如果是折线图,其排列顺序可为:谓语、宾语、主语、其他语,每组数据的间距为1,高度的单位为匹配个数,那么折线图的面积为15。如下表及图3所示:
谓语 | 宾语 | 主语 | 其他语 | |
匹配字母(个) | 3 | 5 | 0 | 7 |
其中,需要说明的是,由于上述折现图并非封闭图形,因此,上述折线图的面积为,以折线为图像的顶部,以折线最左侧的点构建竖直直线为图像的最左侧,以折线的最右侧的点构建竖直直线为图像的最右侧,以X轴为图像的最下侧,所述图像的面积为折线图的面积。
其中,上述折线图的面积可为:(3+5)1/2+5*1/2+7*1/2=4+2.5+3.5=10,因此,如果上述面积为10,大于预设阈值3,则将此条中文评论以相同时间轴与流媒体合成并输出至用户终端。从而在大数据的筛选中可得到一个更加贴近于字幕数据的中文评论。
其中,所述中文评论可为视频弹幕,也可为留言板上的评论。而流媒体可为点播视频或直播视频。
优选地,所述预设阈值优选为[3,100)。
优选地,所述预设阈值优选为3。
优选地,所述字形输入法为五笔输入法。
优选地,所述字形输入法为数字王码。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (9)
1.一种中文评论分析方法,其特征在于:包括如下步骤
获取中文评论的第一文字信息和第一时间信息;
根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论;
根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分,将其分为主语、谓语、宾语、其他语;
将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音,并将主语、谓语、宾语、其他语中按每项匹配的汉语拼音的字母个数构建图表;
根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。
2.一种中文评论分析方法,其特征在于:包括如下步骤
获取中文评论的第一文字信息和第一时间信息;
根据流媒体的字幕数据的第二文字信息和第二时间信息而关联第二时间的预设时间范围内的第一时间信息对应的中文评论;
根据所述字幕数据的第二文字信息和中文评论的第一文字信息的组成部分,将其分为主语、谓语、宾语、其他语;
将所述将上述第二文字信息和第一文字信息的主语、谓语、宾语、其他语拆分成汉语拼音,并将主语、谓语、宾语、其他语中按每项匹配的字形输入法对应的字母的个数构建图表;
根据所述图表框选的面积而判定匹配值,若匹配值大于等于预设阈值,则判定所述中文评论与所述字幕数据匹配,并将所述中文评论与所述流媒体合成并输出至用户终端,若小于预设阈值,则判定所述中文评论与所述字幕数据不匹配,而删除所述中文评论。
3.根据权利要求1或2所述的一种中文评论分析方法,其特征在于:所述构建图表的方式为:
将其按照主语、谓语、宾语、其他语的顺序构建柱状图,其中,所述柱状图的宽度为1,柱状图的高度与每个主语、谓语、宾语、其他语的汉语拼音的字母个数相同。
5.根据权利要求1或2所述的一种中文评论分析方法,其特征在于:所述构建图表的方式为:
按照谓语、宾语、主语、其他语的顺序构建折线图,其中,每组数据的间距为1,每组数据的高度为匹配个数,以所述折现为图像的顶部边界,以穿过折现的两端的竖直直线为图像的左侧边界和右侧边界,以x轴为图像的底部边界,所述图像面积为匹配值。
6.根据权利要求4所述的一种中文评论分析方法,其特征在于:所述预设阈值优选为[3,100)。
7.根据权利要求4所述的一种中文评论分析方法,其特征在于:所述预设阈值优选为3。
8.根据权利要求2所述的一种中文评论分析方法,其特征在于:所述字形输入法为五笔输入法。
9.根据权利要求2所述的一种中文评论分析方法,其特征在于:所述字形输入法为数字王码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911372086.XA CN111046651B (zh) | 2019-12-27 | 2019-12-27 | 一种中文评论分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911372086.XA CN111046651B (zh) | 2019-12-27 | 2019-12-27 | 一种中文评论分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046651A true CN111046651A (zh) | 2020-04-21 |
CN111046651B CN111046651B (zh) | 2023-04-28 |
Family
ID=70240331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911372086.XA Active CN111046651B (zh) | 2019-12-27 | 2019-12-27 | 一种中文评论分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046651B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101425236A (zh) * | 2007-11-01 | 2009-05-06 | 赵振山 | 汉字音形标示方法及用途 |
US20100122309A1 (en) * | 2007-04-27 | 2010-05-13 | Dwango Co., Ltd. | Comment delivery server, terminal device, comment delivery method, comment output method, and recording medium storing comment delivery program |
CN102855423A (zh) * | 2011-06-29 | 2013-01-02 | 盛乐信息技术(上海)有限公司 | 一种文字作品的追踪方法和装置 |
CN109361962A (zh) * | 2018-11-26 | 2019-02-19 | 北京洛必达科技有限公司 | 互联网流媒体大数据弹幕信息处理系统及处理方法 |
CN109995450A (zh) * | 2019-04-08 | 2019-07-09 | 南京航空航天大学 | 一种基于云技术语音识别与智能鉴别“黑广播”方法 |
CN110351596A (zh) * | 2019-07-17 | 2019-10-18 | 刘进 | 一种互联网流媒体大数据弹幕处理系统及处理方法 |
-
2019
- 2019-12-27 CN CN201911372086.XA patent/CN111046651B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100122309A1 (en) * | 2007-04-27 | 2010-05-13 | Dwango Co., Ltd. | Comment delivery server, terminal device, comment delivery method, comment output method, and recording medium storing comment delivery program |
CN101425236A (zh) * | 2007-11-01 | 2009-05-06 | 赵振山 | 汉字音形标示方法及用途 |
CN102855423A (zh) * | 2011-06-29 | 2013-01-02 | 盛乐信息技术(上海)有限公司 | 一种文字作品的追踪方法和装置 |
CN109361962A (zh) * | 2018-11-26 | 2019-02-19 | 北京洛必达科技有限公司 | 互联网流媒体大数据弹幕信息处理系统及处理方法 |
CN109995450A (zh) * | 2019-04-08 | 2019-07-09 | 南京航空航天大学 | 一种基于云技术语音识别与智能鉴别“黑广播”方法 |
CN110351596A (zh) * | 2019-07-17 | 2019-10-18 | 刘进 | 一种互联网流媒体大数据弹幕处理系统及处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111046651B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghallab et al. | Arabic sentiment analysis: A systematic literature review | |
Straka et al. | UDPipe: trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, pos tagging and parsing | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US9727556B2 (en) | Summarization of a document | |
CN108920633B (zh) | 一种论文相似度的检测方法 | |
CN108052500B (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
CN107577663B (zh) | 一种关键短语抽取方法和装置 | |
CN107577671A (zh) | 一种基于多特征融合的主题词提取方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
Lipton et al. | Generative concatenative nets jointly learn to write and classify reviews | |
US20110213763A1 (en) | Web content mining of pair-based data | |
CN104731812A (zh) | 一种基于文本情感倾向识别的舆情检测方法 | |
CN110032734B (zh) | 近义词扩展及生成对抗网络模型训练方法和装置 | |
KR101319413B1 (ko) | 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법 | |
Van Cranenburgh | Literary authorship attribution with phrase-structure fragments | |
Campesato | Natural language processing fundamentals for developers | |
CN113255331A (zh) | 文本纠错方法、装置及存储介质 | |
EP2916238A1 (en) | Corpus generating device, corpus generating method, and corpus generating program | |
CN111046651B (zh) | 一种中文评论分析方法 | |
US20120265520A1 (en) | Text processor and method of text processing | |
CN107291686A (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
US20180005300A1 (en) | Information presentation device, information presentation method, and computer program product | |
Rofiq | Indonesian news extractive text summarization using latent semantic analysis | |
Ohta et al. | Empirical evaluation of CRF-based bibliography extraction from reference strings | |
Tuan et al. | A study of text normalization in Vietnamese for text-to-speech system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |