CN113268673B - 互联网行动类信息线索分析的方法和系统 - Google Patents

互联网行动类信息线索分析的方法和系统 Download PDF

Info

Publication number
CN113268673B
CN113268673B CN202110443364.7A CN202110443364A CN113268673B CN 113268673 B CN113268673 B CN 113268673B CN 202110443364 A CN202110443364 A CN 202110443364A CN 113268673 B CN113268673 B CN 113268673B
Authority
CN
China
Prior art keywords
action
clue
information
class
algorithm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110443364.7A
Other languages
English (en)
Other versions
CN113268673A (zh
Inventor
张传新
梁汝锋
解峥
王宇
刘春阳
刘巨安
张旭
陈志朋
张翔宇
王菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Blue Light Wit Network Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Beijing Blue Light Wit Network Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Blue Light Wit Network Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Beijing Blue Light Wit Network Technology Co ltd
Priority to CN202110443364.7A priority Critical patent/CN113268673B/zh
Publication of CN113268673A publication Critical patent/CN113268673A/zh
Application granted granted Critical
Publication of CN113268673B publication Critical patent/CN113268673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种互联网行动类信息线索分析的方法,包括:从互联网获取信息文本;将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词;其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算。本发明可以对采集内容进行快速的语法分析,获取内容中用户关注的时间、地点、人物和活动等行动类线索信息,这样就可以对关键词信息进行标注或分类,最终让用户可以很清晰、明了的查看线索信息内容。

Description

互联网行动类信息线索分析的方法和系统
技术领域
本发明涉及计算机信息技术领域。更具体地说,本发明涉及一种互联网行动类信息线 索分析的方法和系统。
背景技术
新闻网站、移动客户端App、即时通讯等是当今生活中人们生活中获取信息的一种不 可或缺的方式。根据2020年8月沃指数APP报告数据显示,新闻类网站的月活跃人数中,今日头条为24169万人,排名第二是腾讯新闻的17822万人,第三的是网易新闻的12714 万人;
在即时通讯类软件中,腾讯发布的2018年财报显示,微信的月活跃量是11亿,QQ的月活跃用户是7亿。2018年9月27,Facebook就宣布每日就有高达3亿的活跃用户。 目前筛选不法行为信息的方法主要是通过判断关键词的方法去识别分析内容中是否包含 指定线索。在面对海量信息的时候,这种方法效率略低,并且识别度也不高,无法从多维 度去分析内容信息。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种互联网行动类信息线索分析的方法和系统,可以对采 集内容进行快速的语法分析,获取内容中用户关注的时间、地点、人物和活动等行动类线 索信息,这样就可以对关键词信息进行标注或分类,最终让用户可以很清晰、明了的查看 线索信息内容。
为了实现根据本发明的这些目的和其它优点,提供了一种互联网行动类信息线索分析 的方法,其包括:
从互联网获取信息文本;
将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注算法 模型获取信息文本中的行动类信息线索单词;
其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法 模型对属于自定义类型的单词的权重进行增量运算。
优选的是,所述行动线索标注算法模型的预训练方法包括:
获取训练语料,对训练语料分词,再对每个单词进行第一类标注;
选择标签体系,根据标签体系对训练语料中的每个字符进行第二类标注,生成包含第 一类标注和第二类标注的训练数据,其中第二类标注包括行动类信息线索单词所属实体类 型的标注;
选择特征模板,根据行动类信息线索单词和/或行动类信息线索单词的第一类标注和/ 或行动类信息线索单词的第二类标注确定特征模板中的特征;
将训练数据和特征模板导入行动线索标注算法模型中进行训练,以得到获取行动类信 息线索单词的最优路径。
优选的是,所述第一类标注为词性标注,所述第二类标注还包括行动类信息线索单词 中每个字符的位置标注。
优选的是,所述行动类信息线索单词的实体类型还包括:时间、地点、人物。
优选的是,行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。
本发明还提供一种互联网行动类信息线索分析的系统,其包括:
文本获取模块,其用于从互联网获取信息文本;
线索获取模块,其用于将信息文本输入预训练的行动线索标注算法模型中,应用预训 练的行动线索标注算法模型获取信息文本中的行动类信息线索单词;
其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法 模型对属于自定义类型的单词的权重进行增量运算。
优选的是,还包括行动线索标注算法模型的预训练模块,所述行动线索标注算法模型 的预训练模块包括:
分词标注单元,其用于获取训练语料,对训练语料分词,再对每个单词进行第一类标 注;
训练数据生成单元,其用于选择标签体系,根据标签体系对训练语料中的每个字符进 行第二类标注,生成包含第一类标注和第二类标注的训练数据,其中第二类标注包括行动 类信息线索单词所属实体类型的标注;
特征确定单元,其用于选择特征模板,根据行动类信息线索单词和/或行动类信息线 索单词的第一类标注和/或行动类信息线索单词的第二类标注确定特征模板中的特征;
模型训练单元,其用于将训练数据和特征模板导入行动线索标注算法模型中进行训练, 以得到获取行动类信息线索单词的最优路径。
优选的是,所述第一类标注为词性标注,所述第二类标注还包括行动类信息线索单词 中每个字符的位置标注。
优选的是,所述行动类信息线索单词的实体类型还包括:时间、地点、人物。
优选的是,行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。
本发明至少包括以下有益效果:本发明中通过添加行动类信息线索单词的自定义类型, 用户可根据需求选择想要识别的行动类线索单词,行动线索标注算法模型的灵活度更高, 同时本发明对标注算法模型进行改进,通过对自定义类型的单词的权重进行增量运算,使 得行动线索标注算法模型在进行状态序列的条件概率运算时,属于自定义类型的行动类信 息线索单词的状态序列必然出现于最优路径解中,增加了属于自定义类型的行动类信息线 索单词获取的准确率。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明 的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明所述标注算法模型一阶链式结构的示意图;
图2为本发明所述互联网行动类信息线索分析的方法的流程图;
图3为本发明所述行动线索标注算法模型的测试结果图;
图4为本发明所述互联网行动类信息线索分析的系统的结构示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能 够据以实施。
需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述 试剂和材料,如无特殊说明,均可从商业途径获得;在本发明的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本 发明和简化描述,并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方 位构造和操作,因此不能理解为对本发明的限制。
在列举实施例前,有必要对标注算法模型进行解释:
标注算法模型主要用于对文本数据进行标注,包括词性标注或者语义标注等等,而标 注算法模型最简单且最常用的是一阶链式结构(如图1所示),即线性链结构。
在线性链结构模型中,x={x1,x2,…,xn}表示观察序列,即可直观看到的序列, y={y1,y2,…,yn}表示状态序列,即观察序列中的元素隐藏的属性状态的序列,根据 标注算法模型的基本理论:
Figure BDA0003035831810000041
Figure BDA0003035831810000042
其中,i为当前节点位置,tk(yi-1,yi,x,i)为观察序列的节点位置i-1与i之间的转移特征 函数,这类特征函数只和当前节点及上一节点有关,sl(yi,x,i)为观察序列的节点位置i的状 态特征函数,这类特征函数只和当前节点有关,λk为tk的权重系数,μl为sl的权重系 数,Z(x)为规范化因子,;
将转移特征函数tk(yi-1,yi,x,i)和状态特征函数sl(yi,x,i)统一为特征函数fk(y,x),同时将权 重系数λk和μl统一为权重系数wk后,P(y∣x)和Z(x)可分别表示为:
Figure BDA0003035831810000043
Figure BDA0003035831810000044
其中,K为转移特征函数tk(yi-1,yi,x,i)和状态特征函数sl(yi,x,i)的总个数。
那么线性链结构模型的主要问题为:(1)特征函数的选择;(2)权重系数的学习;(3)在给定权重系数后,根据观察序列对状态序列的预测。
对于第一个问题,在对标注算法模型进行训练前,通过选择特征模板,设计特征模板 中的获取特征即可解决。对于第二个问题,通过训练数据对标注算法模型进行训练即可学 习到特征函数的权重系数。对于第三个问题,可通过维特比算法解决,而维特比算法是一 种动态规划算法,是将全局最优解的计算过程分解为阶段最优解的计算过程,即通过先寻 求局部最优路径进而寻求全局最优路径,通过最优路径即可得到观察序列的最大概率的状 态序列。
如图2所示,本发明提供一种互联网行动类信息线索分析的方法,其包括:
S1、从互联网获取信息文本;
这里从互联网获取信息文本的方法可以采用网上采集算法,又称网络爬虫、网络蜘蛛 或Web信息采集器,是一个自动化下载网页的计算机程序或自动化脚本。
S2、将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注 算法模型获取行动类信息线索单词;
其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法 模型对属于自定义类型的单词的权重进行增量运算。
这里,行动类信息线索单词的实体类型还可以包括:时间(TIME)、地点(LOCATION)、 人物(PERSON),具体来说,如信息文本的内容为“今晚7点到人民广场参加晚会”,该 信息文本中的行动类信息线索单词包括:时间为晚上7点,地点为人民广场,活动为晚会, 而晚会这类单词可以由用户自定义类型,本实施例中将其设置为活动(拼音缩写HD)或 者集会(拼音缩写JH),实际上属于活动类型的单词还可以包括打架、打牌、讲课等等。
这里,行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。
这里,所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算,包 括在预训练过程中对训练语料内属于自定义类型的单词的权重进行增量运算,这样用于获 取训练语料中属于自定义类型的单词的特征函数的权重也会相应的增加,那么再使用训练 好的行动线索标注算法模型对新的语料进行行动类信息线索单词获取时,属于自定义类型 的单词的获取概率会大大增加,从而提高自定义类型的单词的获取准确率。
具体的,所述行动线索标注算法模型的预训练方法包括:
S21、获取训练语料,对训练语料分词,再对每个单词进行第一类标注;
这里训练语料可以采用常用的经典训练语料《人民日报1998中文标注语料库》,该语料库已对训练语料做好了分词与第一类标注(即词性标注),词性标注一般包括名词n、时间词t、动词v、形容词a等等,而本实施例中由于需要获取的实体类型是时间、地点、 人物和活动,因此需要标注时间词t、人名nr、地名ns、机构名称nt、其他专有名词nz。 需要注意的是,需要将训练语料中的全角字符统一转为半角字符。
S22、选择标签体系,根据标签体系对训练语料中的每个字符进行第二类标注,生成 包含第一类标注和第二类标注的训练数据,其中第二类标注包括行动类信息线索单词所属 实体类型的标注;
这里标签体系中每个标签用于代表字符位于单词中的位置,再于行动类信息线索单词 的每个字符的位置标签后缀以实体类型,即可完成第二类标注,常见的标签体系包括IO、 BIO、BMEWO、BMEWO+。
本实施例中选用的标签体系为BMEWO,该体系中B表示属于实体类型的单词的首字符,M表示属于实体类型的单词的中间字符,E表示属于实体类型的单词的末字符,W 表示属于实体类型的单词的全体字符,O表示不属于实体类型的字符。
以单字作为token,那么上述例句“今晚7点到人民广场参加晚会”经过第一类标注和第二类标注,得到的训练数据则为:
Figure BDA0003035831810000061
对于已经处理好的训练数据,可以将第一列作为观察序列,第二列和第三列作为状态 序列,那么行动线索标注算法模型的主要目的则是得出观察序列中的行动类信息线索单词 与状态序列的时间、地点、人物以及活动标注之间的连线,也即最优路径。
S23、选择特征模板,根据行动类信息线索单词和/或行动类信息线索单词的第一类标 注和/或行动类信息线索单词的第二类标注确定特征模板中的特征;
这里行动线索标注算法模型有unigram特征模板和bigram特征模板,unigram特征模 板生成状态特征函数,bigram特征模板生成转移特征函数。
本实施例中选用unigram特征模板,以字符本身作为特征而不考虑其他特征。除了当 前的字符外,使用其前后3个字,以及上下文的组合作为特征。
S24、将训练数据和特征模板导入行动线索标注算法模型中进行训练,以得到获取行 动类信息线索单词的最优路径。
具体的,通过使用learn命令,指定特征模板文件、训练数据文件和输出模型文件开 始训练。使用-c参数可提高数据拟合度。
上述行动线索标注算法模型完成训练后,开始进行测试,使用test命令进行测试文本 “3月15号下午3点,去光明小区参加集会”,测试结果图3所示,可见本发明提供的 方法能够对输入文字序列输出相应的标签,在对标签序列进行解码,得到最终的结果,完 成识别任务。
如图4所示,本发明还提供一种互联网行动类信息线索分析的系统,其包括:
文本获取模块,其用于从互联网获取信息文本;
线索获取模块,其用于将信息文本输入预训练的行动线索标注算法模型中,应用预训 练的行动线索标注算法模型获取行动类信息线索单词;
其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法 模型对属于自定义类型的单词的权重进行增量运算。
优选的是,还包括行动线索标注算法模型的预训练模块,所述行动线索标注算法模型 的预训练模块包括:
分词标注单元,其用于获取训练语料,对训练语料分词,再对每个单词进行第一类标 注;
训练数据生成单元,其用于选择标签体系,根据标签体系对训练语料中的每个字符进 行第二类标注,生成包含第一类标注和第二类标注的训练数据,其中第二类标注包括行动 类信息线索单词所属实体类型的标注;
特征确定单元,其用于选择特征模板,根据行动类信息线索单词和/或行动类信息线 索单词的第一类标注和/或行动类信息线索单词的第二类标注确定特征模板中的特征;
模型训练单元,其用于将训练数据和特征模板导入行动线索标注算法模型中进行训练, 以得到获取行动类信息线索单词的最优路径。
在另一实施例中,所述第一类标注为词性标注,所述第二类标注还包括行动类信息线 索单词中每个字符的位置标注。
在另一实施例中,所述行动类信息线索单词的实体类型还包括:时间、地点、人物。
在另一实施例中,行动线索标注算法模型通过维特比算法解码获取行动类信息线索单 词。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用, 它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现 另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特 定的细节和这里示出与描述的图例。

Claims (8)

1.互联网行动类信息线索分析的方法,其特征在于,包括:
从互联网获取信息文本;
将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词;
其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算;
所述行动线索标注算法模型的预训练方法包括:
获取训练语料,对训练语料分词,再对每个单词进行第一类标注;
选择标签体系,根据标签体系对训练语料中的每个字符进行第二类标注,生成包含第一类标注和第二类标注的训练数据,其中第二类标注包括行动类信息线索单词所属实体类型的标注;
选择特征模板,根据行动类信息线索单词和/或行动类信息线索单词的第一类标注和/或行动类信息线索单词的第二类标注确定特征模板中的特征;
将训练数据和特征模板导入行动线索标注算法模型中进行训练,以得到获取行动类信息线索单词的最优路径;
所述行动类标注算法模型为线性链结构的标注算法模型,在线性链结构模型中,x={x1,x2,…,xn}表示观察序列,即可直观看到的序列,y={y1,y2,…,yn}表示状态序列,即观察序列中的元素隐藏的属性状态的序列,根据标注算法模型的基本理论:
Figure FDA0004114422530000011
Figure FDA0004114422530000012
其中,i为当前节点位置,tk(yi-1,yi,x,i)为观察序列的节点位置i-1与i之间的转移特征函数,这类特征函数只和当前节点及上一节点有关,sl(yi,x,i)为观察序列的节点位置i的状态特征函数,这类特征函数只和当前节点有关,λk为tk的权重系数,μl为sl的权重系数,Z(x)为规范化因子;
将转移特征函数tk(yi-1,yi,x,i)和状态特征函数sl(yi,x,i)统一为特征函数fk(y,x),同时将权重系数λk和μl统一为权重系数wk后,P(y∣x)和Z(x)可分别表示为:
Figure FDA0004114422530000021
Figure FDA0004114422530000022
其中,K为转移特征函数tk(yi-1,yi,x,i)和状态特征函数sl(yi,x,i)的总个数。
2.如权利要求1所述的互联网行动类信息线索分析的方法,其特征在于,所述第一类标注为词性标注,所述第二类标注还包括行动类信息线索单词中每个字符的位置标注。
3.如权利要求1所述的互联网行动类信息线索分析的方法,其特征在于,所述行动类信息线索单词的实体类型还包括:时间、地点、人物。
4.如权利要求1所述的互联网行动类信息线索分析的方法,其特征在于,行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。
5.互联网行动类信息线索分析的系统,其特征在于,包括:
文本获取模块,其用于从互联网获取信息文本;
线索获取模块,其用于将信息文本输入预训练的行动线索标注算法模型中,应用预训练的行动线索标注算法模型获取信息文本中的行动类信息线索单词;
其中,所述行动类信息线索单词的实体类型包括自定义类型,所述行动线索标注算法模型对属于自定义类型的单词的权重进行增量运算;
还包括行动线索标注算法模型的预训练模块,所述行动线索标注算法模型的预训练模块包括:
分词标注单元,其用于获取训练语料,对训练语料分词,再对每个单词进行第一类标注;
训练数据生成单元,其用于选择标签体系,根据标签体系对训练语料中的每个字符进行第二类标注,生成包含第一类标注和第二类标注的训练数据,其中第二类标注包括行动类信息线索单词所属实体类型的标注;
特征确定单元,其用于选择特征模板,根据行动类信息线索单词和/或行动类信息线索单词的第一类标注和/或行动类信息线索单词的第二类标注确定特征模板中的特征;
模型训练单元,其用于将训练数据和特征模板导入行动线索标注算法模型中进行训练,以得到获取行动类信息线索单词的最优路径;
所述行动类标注算法模型为线性链结构的标注算法模型,在线性链结构模型中,x={x1,x2,…,xn}表示观察序列,即可直观看到的序列,y={y1,y2,…,yn}表示状态序列,即观察序列中的元素隐藏的属性状态的序列,根据标注算法模型的基本理论:
Figure FDA0004114422530000031
Figure FDA0004114422530000032
其中,i为当前节点位置,tk(yi-1,yi,x,i)为观察序列的节点位置i-1与i之间的转移特征函数,这类特征函数只和当前节点及上一节点有关,sl(yi,x,i)为观察序列的节点位置i的状态特征函数,这类特征函数只和当前节点有关,λk为tk的权重系数,μl为sl的权重系数,Z(x)为规范化因子;
将转移特征函数tk(yi-1,yi,x,i)和状态特征函数sl(yi,x,i)统一为特征函数fk(y,x),同时将权重系数λk和μl统一为权重系数wk后,P(y∣x)和Z(x)可分别表示为:
Figure FDA0004114422530000033
Figure FDA0004114422530000034
其中,K为转移特征函数tk(yi-1,yi,x,i)和状态特征函数sl(yi,x,i)的总个数。
6.如权利要求5所述的互联网行动类信息线索分析的系统,其特征在于,所述第一类标注为词性标注,所述第二类标注还包括行动类信息线索单词中每个字符的位置标注。
7.如权利要求5所述的互联网行动类信息线索分析的系统,其特征在于,所述行动类信息线索单词的实体类型还包括:时间、地点、人物。
8.如权利要求5所述的互联网行动类信息线索分析的系统,其特征在于,行动线索标注算法模型通过维特比算法解码获取行动类信息线索单词。
CN202110443364.7A 2021-04-23 2021-04-23 互联网行动类信息线索分析的方法和系统 Active CN113268673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110443364.7A CN113268673B (zh) 2021-04-23 2021-04-23 互联网行动类信息线索分析的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110443364.7A CN113268673B (zh) 2021-04-23 2021-04-23 互联网行动类信息线索分析的方法和系统

Publications (2)

Publication Number Publication Date
CN113268673A CN113268673A (zh) 2021-08-17
CN113268673B true CN113268673B (zh) 2023-06-02

Family

ID=77229267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110443364.7A Active CN113268673B (zh) 2021-04-23 2021-04-23 互联网行动类信息线索分析的方法和系统

Country Status (1)

Country Link
CN (1) CN113268673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523555A (zh) * 2023-05-12 2023-08-01 珍岛信息技术(上海)股份有限公司 一种基于nlp文本处理技术的线索商机洞察系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221B (zh) * 2009-02-17 2012-05-30 北京大学 一种用于信息检索的查询语句分析方法与系统
CN108829801B (zh) * 2018-06-06 2020-11-20 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109299458B (zh) * 2018-09-12 2023-03-28 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
US11074411B2 (en) * 2019-10-21 2021-07-27 International Business Machines Corporation Disambiguation of concept classifications using language-specific clues
CN111933124B (zh) * 2020-09-18 2021-04-30 电子科技大学 一种可支持自定唤醒词的关键词检测方法

Also Published As

Publication number Publication date
CN113268673A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
Su et al. Analyzing public sentiments online: Combining human-and computer-based content analysis
US9268766B2 (en) Phrase-based data classification system
US8972408B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a social sphere
US20170140304A1 (en) Justifying Passage Machine Learning for Question and Answer Systems
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
Sharma et al. NIRMAL: Automatic identification of software relevant tweets leveraging language model
CN110175585B (zh) 一种简答题自动批改系统及方法
CN112948534A (zh) 一种智能人机对话的交互方法、系统和电子设备
Dorle et al. Political sentiment analysis through social media
Cui et al. KNET: A general framework for learning word embedding using morphological knowledge
Alhassan et al. A novel framework for Arabic dialect chatbot using machine learning
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN116796857A (zh) 一种llm模型训练方法、装置、设备及其存储介质
CN110275953B (zh) 人格分类方法及装置
Al-Khatib et al. Authorship verification of opinion articles in online newspapers using the idiolect of author: a comparative study
Ashraf et al. Author profiling on bi-lingual tweets
CN113268673B (zh) 互联网行动类信息线索分析的方法和系统
Al-Ghamdi et al. Exploring NLP web APIs for building Arabic systems
Badawi et al. Kurdish news dataset headlines (KNDH) through multiclass classification
CN110738056A (zh) 用于生成信息的方法和装置
Majdik et al. Building Better Machine Learning Models for Rhetorical Analyses: The Use of Rhetorical Feature Sets for Training Artificial Neural Network Models
CN111459959B (zh) 用于更新事件集合的方法和装置
CN112131452A (zh) 一种基于gpt-2模型的网络舆情引导方法及装置
Sushmitha et al. Fake News Detection Using Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant