CN110569361A - 一种文本识别方法及设备 - Google Patents
一种文本识别方法及设备 Download PDFInfo
- Publication number
- CN110569361A CN110569361A CN201910843954.1A CN201910843954A CN110569361A CN 110569361 A CN110569361 A CN 110569361A CN 201910843954 A CN201910843954 A CN 201910843954A CN 110569361 A CN110569361 A CN 110569361A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- recognized
- classification
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种文本识别方法及设备;该方法包括:对待识别标题、待识别正文和待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量;通过关键词分类模型,对待识别标题向量和段落正文向量进行识别,得到目标概率值;关键词分类模型用于确定待识别文本属于目标类别的概率值;通过普适分类模型,对待识别正文向量和来源特征向量进行识别,得到文本受众度;普适分类模型用于确定待识别文本的受众度;通过识别分类模型,对目标概率值和文本受众度进行融合,得到目标识别结果;识别分类模型用于确定待识别文本属于目标类别的结果。通过本发明实施例,能够使得待识别文本的目标识别结果的准确度高。
Description
技术领域
本发明涉及人工智能领域的信息处理技术,尤其涉及一种文本识别方法及设备。
背景技术
文本分类,指对文本集按照一定的分类体系或标准进行自动分类标记的过程。通过文本分类,能够识别出属于目标类别的目标文本,之后,对目标文本进行处理,是文本相关领域的重要操作。
一般来说,通常对待识别文本的标题进行标题关键词的提取,再通过提取到的标题关键词与目标类别对应的标题关键词库进行比对,来对待识别文本进行文本分类,得到目标识别结果,以识别出该待识别文本是否属于目标类别;然而,上述获取待识别文本的目标识别结果的过程中,由于提取到的标题关键词无法准确表达出整篇待识别文本的信息,因此,待识别文本的目标识别结果的准确度低。
发明内容
本发明实施例提供一种文本识别方法及设备,能够使得待识别文本的目标识别结果的准确度高。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种文本识别方法,包括:
获取待识别文本;所述待识别文本为包括待识别标题、待识别正文和待识别来源的文本信息;
对所述待识别标题、所述待识别正文和所述待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量;
通过关键词分类模型,对所述待识别标题向量和所述段落正文向量进行识别,得到目标概率值;所述关键词分类模型用于确定所述待识别文本属于目标类别的概率值;
通过普适分类模型,对所述待识别正文向量和所述来源特征向量进行识别,得到文本受众度;所述普适分类模型用于确定所述待识别文本的受众度;
通过识别分类模型,对所述目标概率值和所述文本受众度进行融合,得到目标识别结果;所述识别分类模型用于确定所述待识别文本属于所述目标类别的结果。
本发明实施例提供一种文本识别装置,包括:
信息获取模块,用于获取待识别文本;所述待识别文本为包括待识别标题、待识别正文和待识别来源的文本信息;
向量表示模块,用于对所述待识别标题、所述待识别正文和所述待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量;
概率值获取模块,用于通过关键词分类模型,对所述待识别标题向量和所述段落正文向量进行识别,得到目标概率值;所述关键词分类模型用于确定所述待识别文本属于目标类别的概率值;
受众度获取模块,用于通过普适分类模型,对所述待识别正文向量和所述来源特征向量进行识别,得到文本受众度;所述普适分类模型用于确定所述待识别文本的受众度;
识别模块,用于通过识别分类模型,对所述目标概率值和所述文本受众度进行融合,得到目标识别结果;所述识别分类模型用于确定所述待识别文本属于所述目标类别的结果。
本发明实施例提供一种文本识别设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的方法。
本发明实施例具有以下有益效果:由于待识别文本的目标识别结果是基于待识别文本的标题和正文确定出的属于目标类别的概率值,以及待识别文本的正文和来源确定的受众度共同确定的,是一种综合待识别文本属于目标类别的概率值和待识别文本自身的普适性确定识别结果的方法,因此,待识别文本的目标识别结果的准确度高。
附图说明
图1是本发明实施例提供的一种示例性的基于标题对待识别文本进行识别的流程示意图;
图2是本发明实施例提供的文本识别系统100的一个可选的架构示意图;
图3是本发明实施例提供的服务器200的结构示意图;
图4是本发明实施例提供的文本识别系统100的另一个可选的架构示意图;
图5是本发明实施例提供的区块链网络600中区块链的结构示意图;
图6是本发明实施例提供的区块链网络600的功能架构示意图;
图7是本发明实施例提供的文本识别方法的一个可选的流程示意图;
图8是本发明实施例提供的文本识别方法的另一个可选的流程示意图;
图9是本发明实施例提供的文本识别方法的又一个可选的流程示意图
图10是本发明实施例获取分类样本的一个可选流程示意图;
图11是本发明实施例提供的获取分类样本的一个示例性的流程示意图;
图12是本发明实施例提供的训练模型的一种可选流程示意图;
图13是本发明实施例提供的文本识别方法的一种示例性应用流程示意图;
图14是本发明实施例提供的一种示例性应用的示意图;
图15是本发明实施例提供的显示待识别文本的一种示例性的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”和“本发明实施例中”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”和“本发明实施例中”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
2)人工神经网络,是一种模仿生物神经网络结构和功能的数学模型,本文中人工神经网络的示例性结构包括前馈(BP,Back Propagation)神经网络和循环神经网络(RNN,Recurrent Neural Networks),前者采用可以误差反向传播算法进行训练,人工神经网络用于函数估计或近似,包括输入层、中间层和输出层,每个层由大量处理单元相互联结构成,每个节点使用激励函数对输入的数据进行处理并输出给其他节点,激励函数的示例性的类型包括阈值型、线性型和S生长曲线(Sigmoid)型等。
3)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能;重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
4)深度学习(Deep Learning,DL),是机器学习领域中一个新的研究方向;深度学习是学习样本数据的内在规律和表示层次,最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据;深度学习是一个复杂的机器学习算法。
5)分类器,是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法;指在已有数据的基础上确定的一个分类函数或构造的一个分类模型,该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个。
6)普适性,指事物(特别是观念、制度和规律等)比较普遍地适用于同类对象或事物的性质,又称为受众度,热度等。
7)停用词,指在信息检索中,为节省存储空间和提高搜索效率,在处理文本之前或之后会自动过滤掉的字或词;一般停用词都是人工输入或非自动化生成的,输入或生成后的停用词会形成一个停用词表。通常将自身无明确的意义,只有放入一个完整的句子中才有一定作用的词作为停用词,比如,助词(例如,“的”)、副词、介词(例如,“在”)和连接词等。
一般来说,在对待识别文本进行识别,判断待识别文本是否属于目标类别时,由于文本的标题在一定程度上表征了文本的主要内容,并且数据量小,因此,通常基于文本的标题对待识别文本进行识别。参见图1,图1是本发明实施例提供的一种示例性的基于标题对待识别文本进行识别的流程示意图,如图1所示:对待识别文本的标题进行关键词提取;由于针对目标类别预先设置有对应的标题关键词库(比如,当目标类别为不推荐类别时,招聘启示,公告等所组成的词库),因此,将提取到的标题的关键词与标题关键词库进行比较;判断所得到的比较结果中是否存在匹配的关键词,即标题关键词库中是否存在与标题的关键词匹配的关键词,如果是,则确定待识别文本属于目标类别,如果否,则确定待识别文本不属于目标类别。然而,上述识别待识别文本是否属于目标类别的过程中,由于标题对应的关键词的量较少,仅通过标题的关键词难以准确表达整篇待识别文本的内容,容易导致对待识别文本是否属于目标类别的误判,目标识别结果的准确度低;另外,提取标题的关键词时,通常采用人工方式提取,效率低,且关键词不全面。
随着人工智能技术的研究和进步,人工智能技术在多个领域展开了研究和应用;例如,常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等;随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值;比如,还可以将人工智能应用在信息分类领域。
需要说明的是,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
另外,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
这里,还可以采用统计机器学习的文本分类方法,判断待识别文本是否属于目标类别。首先,采用关键词提取算法(比如,TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆文本频率指数))对待识别文本进行文本特征的提取,得到文本关键词,将文本关键词输入至机器学习的分类模型中进行目标类别的识别,以得到目标识别结果。然而,上述识别待识别文本是否属于目标类别的过程中,由于存在仅是少量篇幅的内容与目标类别关联的待识别文本,因此,存在将该类待识别文本确定为不属于目标类别的目标识别结果,导致对待识别文本是否属于目标类别的误判,目标识别结果的准确度低;比如,要识别待识别文本是否属于活动类(目标类别),由于活动类的文本的正文中大篇幅内容涉及的为活动详细信息,与非活动类的文本无差异,仅是文本的结尾或开头部分涉及活动的报名时间和地点等(与目标类别关联的内容),该类文本易被识别为非活动类文本,导致了误判。此外,仅通过待识别文本自身的信息判断待识别文本是否属于目标类别,也会出现误判的情况;比如,要识别待识别文本是否属于公告类(目标类别),并对确定为公告类的文本不进行推荐的应用中,当待识别文本为中央发布的全国性公告时,是有阅读价值需要进行推荐的,而却会因为被识别为公告类文本而不进行推荐,因此,无法实现基于文本识别进行准确的应用。
综上,现有技术中判断待识别文本是否属于目标类别时,一方面,仅通过待识别文本对应的关键词进行待识别文本类别的识别,是无法实现准确确定目标识别结果的;另一方面,由于提取到的待识别文本的关键词的有效性低,也无法实现准确确定目标识别结果。
基于此,本发明实施例提供一种文本识别方法及设备,能够在人工智能的基础上实现待识别文本的分类,提升待识别文本的目标识别结果的准确度。另外,本发明实施例提供的方案涉及人工智能的分类决策技术,比如,用于识别属于目标类别的模型训练和使用训练好的模型进行目标类别的识别等;具体将在下文进行说明。
下面说明本发明实施例提供的文本识别设备的示例性应用,本发明实施例提供的文本识别设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,也可以实施为服务器。下面,将说明文本识别设备实施为服务器时示例性应用。
参见图2,图2是本发明实施例提供的文本识别系统100的一个可选的架构示意图,为实现支撑一个识别应用,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于搜集待识别文本通过网络300向服务器200发送,并通过网络300接收服务器200基于待识别文本确定的处理信息,以根据处理信息确定是否在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示该待识别文本。服务器200用于通过网络300从终端400获取待识别文本进行目标类别的识别,并将根据目标识别结果确定的处理信息通过网络300发送至终端400进行显示;另外,服务器200还用于从数据库500中获取预先设置的信息,比如段落位置信息、词向量模型和文本向量模型等。
参见图3,图3是本发明实施例提供的服务器200的结构示意图,图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的文本识别装置可以采用软件方式实现,图3示出了存储在存储器250中的文本识别装置255,其可以是程序和插件等形式的软件,包括以下软件模块:信息获取模块2551、向量表示模块2552、概率值获取模块2553、受众度获取模块2554、识别模块2555、样本获取模块2556、模型训练模块2557和上链模块2558,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的文本识别装置可以采用硬件方式实现,作为示例,本发明实施例提供的文本识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Progra mmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
参见图4,图4是本发明实施例提供的文本识别系统100的另一个可选的架构示意图,包括区块链网络600(示例性示出了共识节点610-1至共识节点610-3)、认证中心700、业务主体800和业务主体900,下面分别进行说明。
区块链网络600的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备例如用户终端和服务器,都可以在不需要授权的情况下接入区块链网络600;以联盟链为例,业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络600,此时,成为区块链网络600中的客户端节点。
在一些实施例中,客户端节点可以只作为区块链网络600的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)功能,对于区块链网络600的共识节点610的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络600中,通过区块链网络600实现数据和业务处理过程的可信和可追溯。
区块链网络600中的共识节点接收来自不同业务主体(例如图4中示出的业务主体800和业务主体900)的客户端节点(例如,图4中示出的归属于业务主体800的客户端节点810、以及归属于业务主体900的客户端节点910)提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
例如,客户端节点810/910可以订阅区块链网络600中感兴趣的事件,例如区块链网络600中特定的组织/通道中发生的交易,由共识节点610推送相应的交易通知到客户端节点810/910,从而触发客户端节点810/910中相应的业务逻辑。
下面以多个业务主体接入区块链网络以实现待识别文本及目标识别结果的管理为例,说明区块链网络的示例性应用。
继续参见图4,管理环节涉及的多个业务主体,如业务主体800可以是基于人工智能的文本识别系统,业务主体900可以是待识别文本的人工识别系统,从认证中心700进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心700对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络会根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络600请求接入而成为客户端节点。
业务主体800的客户端节点810用于获取待识别文本;待识别文本为包括待识别标题、待识别正文和待识别来源的文本信息;对待识别标题、待识别正文和待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量;通过关键词分类模型,对待识别标题向量和段落正文向量进行识别,得到目标概率值;关键词分类模型用于确定待识别文本属于目标类别的概率值;通过普适分类模型,对待识别正文向量和来源特征向量进行识别,得到文本受众度;普适分类模型用于确定待识别文本的受众度;通过识别分类模型,对目标概率值和文本受众度进行融合,得到目标识别结果;识别分类模型用于确定待识别文本属于目标类别的结果;将待识别文本及对应的目标识别结果发送至区块链网络600。
其中,将待识别文本及对应的目标识别结果发送至区块链网络600的操作,可以预先在客户端节点810设置业务逻辑,当产生目标识别结果时,客户端节点810将待识别文本及对应的目标识别结果自动发送至区块链网络600,也可以由业务主体800的业务人员在客户端节点810中登录,手动打包待识别文本及目标识别结果,并将其发送至区块链网络600。在发送时,客户端节点810根据待识别文本及目标识别结果生成对应更新操作的交易,在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点810的数字证书、签署的数字签名(例如,使用客户端节点810的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络600中的共识节点610。
区块链网络600中的共识节点610中接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体800的身份,确认业务主体800是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点610自己的数字签名(例如,使用共识节点610-1的私钥对交易的摘要进行加密得到),并继续在区块链网络600中广播。
区块链网络600中的共识节点610接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络600中的共识节点610广播的新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交更新待识别文本及目标识别结果的交易,在状态数据库中添加包括待识别文本及目标识别结果的键值对。
业务主体900的业务人员在客户端节点910中登录,输入文本查询请求,客户端节点910根据文本查询请求生成对应更新操作/查询操作的交易,在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点910的数字证书、签署的数字签名(例如,使用客户端节点910的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络600中的共识节点610。其中,文本查询请求用于查询待识别文本以及对应的目标识别结果。
区块链网络600中的共识节点610中接收到交易,对交易进行验证、区块填充及共识一致后,将填充的新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易;比如,对于提交的查询某个待识别文本的交易,从状态数据库中查询待识别文本对应的键值对,并返回交易结果。
值得说明的是,在图4中示例性地示出了将待识别文本及对应的目标识别结果直接上链的过程,但在另一些实施例中,对于待识别文本的数据量较大的情况,客户端节点810可将待识别文本的哈希以及目标识别结果的哈希成对上链,将原始的待识别文本以及目标识别结果存储于分布式文件系统或数据库。客户端节点910从分布式文件系统或数据库获取到待识别文本以及目标识别结果后,可结合区块链网络600中对应的哈希进行校验,从而减少上链操作的工作量。
作为区块链的示例,参见图5,图5是本发明实施例提供的区块链网络600中区块链的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长,区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。
下面说明本发明实施例提供的区块链网络的示例性的功能架构,参见图6,图6是本发明实施例提供的区块链网络600的功能架构示意图,包括应用层601、共识层602、网络层603、数据层604和资源层605,下面分别进行说明。
资源层605封装了实现区块链网路600中的各个共识节点610的计算资源、存储资源和通信资源。
数据层604封装了实现账本的各种数据结构,包括以文件系统中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层603封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络600中共识节点610之间的通信,数据传播机制保证了交易在区块链网络600中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现共识节点610之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络600的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络600的权限;业务主体身份管理用于存储允许接入区块链网络600的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层602封装了区块链网络600中的共识节点610对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证共识节点610接收到的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络600的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块序列号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易序列号查询区块;根据交易序列号查询交易;根据业务主体的账号(序列号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层601封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
下面,将结合本发明实施例提供文本识别设备实施为服务器的示例性应用和实施,说明本发明实施例提供的文本识别方法。
参见图7,图7是本发明实施例提供的文本识别方法的一个可选的流程示意图,下面将结合图7示出的步骤进行说明。
S101、获取待识别文本;待识别文本为包括待识别标题、待识别正文和待识别来源的文本信息。
在本发明实施例中,当文本识别设备进行目标类别的识别时,所识别的对象即待识别文本。这里,待识别文本可以为文本识别设备接收到其他设备发送的文本,还可以是响应获取待识别文本的指令从自身存储设备中获得的文本,等等,本发明实施例对此不作具体限定。
需要说明的是,目标类别为文本所属的类别,比如,暴恐类别、低质文章类别和黑四类(活动类别、总结类别、公告通知类别和招聘招生类别)等。而待识别文本为通过文本识别设备识别出所属类别是否为目标类别的文本;这里,待识别文本是文本信息,可以是通过其他格式的信息转换成的文本信息,且,待识别文本由三部分文本信息组成:待识别标题、待识别正文和待识别来源,因此,当文本识别设备获取到的待识别信息(其他格式的信息或文本)不是包括待识别标题、待识别正文和待识别来源的文本信息时,文本识别设备具备将该待识别信息转换为包括待识别标题、待识别正文和待识别来源的文本信息的功能;其中,待识别标题为待识别文本的标题,待识别正文为待识别文本的正文(除标题、前言、目录、后记和注释等以外的信息),待识别来源为待识别文本的来源信息(比如,作者信息和出处)。
S102、对待识别标题、待识别正文和待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量。
在本发明实施例中,文本识别设备在对待识别文本进行识别时,是对待识别文本中的待识别标题、待识别正文和待识别来源分别对应的向量信息进行识别实现;因此,文本识别设备将待识别标题、待识别正文和待识别来源进行向量表示,也就得到了对应的待识别标题向量、待识别正文向量、段落正文向量和来源特征向量。
需要说明的是,待识别标题向量为待识别标题的向量信息,待识别正文向量和段落正文向量为待识别正文对应的两种不同的向量信息,来源特征向量为待识别来源对应的向量信息。
S103、通过关键词分类模型,对待识别标题向量和段落正文向量进行识别,得到目标概率值;关键词分类模型用于确定待识别文本属于目标类别的概率值。
在本发明实施例中,由于文本识别设备中预先训练好了用于确定待识别文本属于目标类别的概率值的关键词分类模型;因此,当文本识别设备获得了待识别文本之后,由于待识别文本中的待识别标题向量和段落正文向量是待识别文本自身所表达的信息,从而,通过对待识别标题向量和段落正文向量识别,就能够待识别文本自身所表达的信息确定出待识别文本属于目标类别的概率值,即目标概率值。
需要说明的是,目标概率值表征了待识别文本属于目标类别的可能性,易知,目标概率值越大待识别文本属于目标类别的可能性越大,而目标概率值越小待识别文本属于目标类别的可能性越小。
S104、通过普适分类模型,对待识别正文向量和来源特征向量进行识别,得到文本受众度;普适分类模型用于确定待识别文本的受众度。
在本发明实施例中,由于文本识别设备中还预先训练好了用于确定待识别文本的受众度的普适分类模型;因此,当获得了待识别文本之后,由于待识别文本的普适性也是衡量待识别文本是否属于目标类别的因素,而待识别文本的待识别正文和待识别来源通常表征了待识别文本的普适性,从而,通过将待识别正文和待识别来源分别对应的待识别正文向量和来源特征向量输入至普适分类模型,也就获得了表征待识别文本的普适性信息,即文本受众度。这里,文本受众度越大待识别文本属于目标类别的可能性越小,而目标概率值越小待识别文本属于目标类别的可能性越大。
S105、通过识别分类模型,对目标概率值和文本受众度进行融合,得到目标识别结果;识别分类模型用于确定待识别文本属于目标类别的结果。
在本发明实施例中,由于文本识别设备中还预先训练好了用于确定待识别文本属于目标类别的结果的识别分类模型;因此,当获得了待识别文本的目标概率值和文本受众度之后,利用识别分类模型对目标概率值和文本受众度进行线性融合,所得到的融合结果可以直接作为目标识别结果,还可以通过与预设识别阈值比较之后将根据比较结果所确定的信息作为目标识别结果。也就是说,目标识别结果是从根据待识别文本属于目标类别的概率值和受众度两方面综合获得的,表征了待识别文本是否属于目标类别的结果。
可以理解的是,通过采用本发明实施例提供的文本识别方法,实现了综合待识别文本自身所表达的信息和普适性两种属性,识别出待识别文本是否属于目标类别的结果的方案,提升了待识别文本的目标识别结果的准确性。
进一步地,在本发明实施例中,S102可以通过S1021-S1022实现,即文本识别设备对待识别标题、待识别正文和待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量,包括S1021-S1022,下面将结合各步骤进行说明。
S1021、对待识别标题和待识别正文进行向量表示,得到待识别标题向量、待识别正文向量和段落正文向量。
在本发明实施例中,由于待识别标题向量是待识别标题的向量信息,待识别正文向量和段落正文向量是待识别正文的向量信息;因此,文本识别设备通过对待识别标题和待识别正文进行向量表示,也就获得了待识别标题向量、待识别正文向量和段落正文向量。
S1022、对待识别来源进行向量表示,得到来源特征向量。
在本发明实施例中,由于来源特征向量是待识别来源的向量信息;因此,文本识别设备通过对待识别来源进行向量表示,也就获得了来源特征向量。
进一步地,在本发明实施例中,S1021还可以通过S10211-S10214实现,即文本识别设备对待识别标题和待识别正文进行向量表示,得到待识别标题向量、待识别正文向量和段落正文向量,包括S10211-S10214,下面将结合各步骤进行说明。
S10211、对待识别标题和待识别正文进行分词处理,得到分别对应的待识别标题分词结果和待识别正文分词结果。
在本发明实施例中,文本识别设备对待识别标题和待识别正文进行预处理后,才能获得适用于关键词分类模型处理的数据。这里,文本识别设备对待识别标题进行分词并去除停用词,也就获得了待识别标题分词结果;同理,文本识别设备对识别正文进行分词并去除停用词,也就获得了待识别正文分词结果。
S10212、利用词向量模型,获取待识别标题分词结果的向量信息,得到待识别标题向量;词向量模型为预先训练的用于将词转换为向量的模型。
在本发明实施例中,文本识别设备获得了待识别标题分词结果和待识别正文分词结果之后,由于待识别标题分词结果中包含的关键词的数量较少,比如,几个或十几个;因此,文本识别设备采用预先训练好的词向量模型对待识别标题分词结果中的每个次进行向量表示,并对所表示的各向量进行计算(比如,求向量平均)来获得待识别标题向量。
需要说明的是,词向量模型为文本识别设备预先基于预设的文本种子库训练出的词向量模型,用于将词转换为向量,适用于词数量较少的分词结果;比如,基于“word2vec”和文本种子库训练出的模型。
S10213、利用文本向量模型,获取待识别正文分词结果的向量信息,得到待识别正文向量;文本向量模型用于将待识别正文分词结果转换为向量。
在本发明实施例中,由于待识别正文分词结果中所包含的词的数量较多,比如,千万个或几亿个;因此,文本识别设备采用文本向量模型对待识别正文分词结果进行词的筛选和向量的转换,来获得待识别正文向量。
需要说明的是,文本向量模型为文本识别设备对待识别正文分词结果提取元组词特征并筛选获得对待识别正文分词结果的向量表示的模型,适用于词数量较多的分词结果;比如,通过提取“uni-gram”和“bi-gram”特征并采用卡方检验获取预设维度的向量的模型。
S10214、根据段落位置信息,调整待识别正文向量,得到段落正文向量;段落位置信息为预先设置的与目标类别对应的段落的位置信息。
在本发明实施例中,由于段落位置信息与待识别正文的词有对应关系,比如,首段或末段的词在待识别正文向量中所占的权重较大,而中间段落的词在待识别正文向量中所占的权重较小;因此,文本识别设备基于预设的段落位置信息(比如,首段、末段和中间段落等),调整(比如,调高首段和末段的词对应的向量值,调低中间段落的词对应的向量值)待识别正文向量中的权重值,获得段落正文向量。
需要说明的是,段落位置信息为预先设置的段落的位置信息,比如,首段、末段和中间段落;又比如,前预设数量位置的词和后预设数量位置的词。
在一些实施例中,文本识别设备还可以采用注意力机制来获取待识别正文分词结果对应的段落正文向量,实现利用模型自动获取段落正文向量的过程。
可以理解的是,通过段落位置信息可以获取到待识别正文的有效关键信息,进而利用段落正文向量确定目标识别结果时,能够提升目标识别结果的准确度。
进一步地,在本发明实施例中,S1022还可以通过S10221-S10222实现,即文本识别设备对待识别来源进行向量表示,得到来源特征向量,包括,包括S10221-S10222,下面将结合各步骤进行说明。
S10221、从待识别来源中获取地域信息、关注对象数量、绑卡关注对象数量、关注对象地域分布、均阅读量和阅读对象地域分布中的至少之一。
在本发明实施例中,待识别文本的受众度从两方面进行计算,一方面是待识别正文对应的受众度,即正文受众度,另一方面是待识别来源对应的受众度;文本识别设备在获取待识别来源对应的受众度时,根据待识别来源对应的属性信息实现。这里,待识别来源对应的属性信息包括以下至少之一:地域信息、关注对象数量、绑卡关注对象数量、关注对象地域分布、均阅读量和阅读对象地域分布。
需要说明的是,地域信息指待识别文本的地域出处,比如省/市/区县;关注对象数量指待识别文本的来源出处所对应的热度,比如,当待识别文本为媒体平台文章时,关注对象数量为公众号粉丝数量;绑卡关注对象数量指待识别文本的来源出处所对应的应用热度,比如,当待识别文本为媒体平台文章时,绑卡关注对象数量为公众号绑卡粉丝数量;关注对象地域分布指待识别文本的来源出处所对应的关注地域分布,比如,粉丝地域分布;均阅读量指待识别文本的来源出处所对应的文本的平均阅读数量;阅读对象地域分布指待识别文本的来源出处所对应的文本的阅读对象的地域分布。
S10222、依据地域信息、关注对象数量、绑卡关注对象数量、关注对象地域分布、均阅读量和阅读对象地域分布中的至少之一,对待识别来源进行向量化表示,得到来源特征向量。
需要说明的是,文本识别设备获得了地域信息、关注对象数量、绑卡关注对象数量、关注对象地域分布、均阅读量和阅读对象地域分布中的至少之一之后,将每个属性信息作为向量中的一个维度值,从而构建出由地域信息、关注对象数量、绑卡关注对象数量、关注对象地域分布、均阅读量和阅读对象地域分布中的至少之一组合成的至少一维向量,即来源特征向量。
进一步地,在本发明实施例中,关键词分类模型包括标题分类模型和段落分类模型,从而S103可以通过S1031-S1033实现,即文本识别设备通过关键词分类模型,对待识别标题向量和段落正文向量进行识别,得到目标概率值,包括S1031-S1033,下面将结合各步骤进行说明。
S1031、通过标题分类模型,对待识别标题向量进行识别,得到标题目标概率值。
在本发明实施例中,关键词分类模型包括标题分类模型,用于根据待识别标题确定出待识别文本属于目标类别的概率值,而待识别标题向量为待识别标题对应的向量信息;因此,当文本识别设备将待识别标题向量输入至标题分类模型之后,就能够得到根据待识别标题确定出待识别文本属于目标类别的概率值,即标题目标概率值。
需要说明的是,为了提高识别效率,文本识别设备在标题目标概率值大于预设目标概率值时,就能够确定待识别文本属于目标类别的目标识别结果;而在标题目标概率值小于等于预设目标概率值时,进而基于待识别正文和待识别来源进行进一步识别。
S1032、通过段落分类模型,对段落正文向量进行识别,得到正文目标概率值。
在本发明实施例中,关键词分类模型中还包括段落分类模型,用于根据待识别正文确定出待识别文本属于目标类别的概率值,而段落正文向量为待识别正文对应的向量信息;因此,当文本识别设备将段落正文向量输入至段落分类模型之后,就能够得到根据待识别正文确定出待识别文本属于目标类别的概率值,即正文目标概率值。
S1033、将标题目标概率值和正文目标概率值,作为目标概率值。
需要说明的是,文本识别设备获得了标题目标概率值和正文目标概率值之后,将标题目标概率值和正文目标概率值共同作为目标概率值。进一步地,在本发明实施例中,普适分类模型包括正文分类模型和来源分类模型,从而S104可以通过S1041-S1043实现,即文本识别设备通过普适分类模型,对待识别正文向量和来源特征向量进行识别,得到文本受众度,包括S1041-S1043,下面将结合各步骤进行说明。
S1041、通过正文分类模型,对待识别正文向量进行识别,得到正文受众度。
在本发明实施例中,普适分类模型中包括正文分类模型,用于根据待识别正文确定出待识别文本的受众度,而待识别正文向量为待识别正文转换成的适用于正文分类模型处理的数据;因此,当文本识别设备将待识别正文向量输入至正文分类模型之后,就能够得到根据待识别正文确定出待识别文本的受众度,即正文受众度。
S1042、通过来源分类模型,对来源特征向量进行识别,得到来源受众度。
在本发明实施例中,关键词分类模型中还包括来源分类模型,用于根据待识别来源确定出待识别文本的受众度,而来源特征向量为待识别正文转换成的适用于来源分类模型处理的数据;因此,当文本识别设备将来源特征向量输入至来源分类模型之后,就能够得到根据待识别来源确定出待识别文本的受众度,即来源受众度。
S1043、将正文受众度和来源受众度,作为文本受众度。
在本发明实施例中,文本识别设备获得了正文受众度和来源受众度之后,将正文受众度和来源受众度共同作为文本受众度。
相应地,S105中文本识别设备是通过识别分类模型对标题目标概率值、正文目标概率值、正文受众度和来源受众度进行线性融合得到目标识别结果的。
参见图8,图8是本发明实施例提供的文本识别方法的另一个可选的流程示意图,如图8所示,首先,文本识别设备对待识别文本中的待识别标题进行分词,得到待识别标题分词结果;并利用词向量模型对待识别标题分词结果进行向量表示,得到待识别标题向量;以及利用标题分类模型对待识别标题向量进行处理,得到标题目标概率值;比较标题目标概率值与预设目标概率值比较,判断是否大于预设目标概率值,如果是则确定待识别文本属于目标类别的目标识别结果,如果否则对待识别文本中的待识别正文进行分词,得到待识别正文分词结果。
然后,文本识别设备利用文本向量模型对待识别正文分词结果进行向量表示,得到待识别正文向量;此时,文本识别设备一方面直接利用正文分类模型对待识别正文向量进行处理,得到正文受众度;另一方面利用段落位置信息调整待识别正文向量,得到段落正文向量;并利用段落分类模型对段落正文向量进行处理,得到正文目标概率值。此外,文本识别设备对待识别正文中的待识别来源进行向量表示,得到来源特征向量;并利用来源分类模型对来源特征向量进行处理,得到来源受众度。
最后,文本识别设备将标题目标概率值、正文目标概率值、正文受众度和来源受众度作为四维向量输入至识别分类模型,得到目标识别结果。
进一步地,参见图9,图9是本发明实施例提供的文本识别方法的又一个可选的流程示意图,如图9所示,基于图7,在S103之前,还包括S106-S109;即文本识别设备通过关键词分类模型,对待识别标题向量和段落正文向量进行识别,得到目标概率值之前,该文本识别方法还包括S106-S109,下面将结合图9示出的步骤进行说明。
S106、获取分类样本;分类样本包括正分类样本和负分类样本,正分类样本包括正样本标题、正样本正文、正样本来源和正样本识别结果,负分类样本包括负样本标题、负样本正文、负样本来源和负样本识别结果。
在本发明实施例中,文本识别设备进行关键词分类模型、普适分类模型和识别分类模型的训练时,需要先获取用于训练各模型的样本,即分类样本。
需要说明的是,由于关键词分类模型、普适分类模型和识别分类模型属于分类模型,比如,分类器,用于实现信息分类;因此,需要正负两种样本进行训练;所以,所获取的分类样本包括正分类样本和负分类样本。另外,由于关键词分类模型用于根据待识别标题和待识别正文对应的关键词确定待识别文本属于目标类别的概率值,普适分类模型用于根据待识别正文和待识别来源确定待识别文本的受众度;因此,正分类样本包括正样本标题、正样本正文、正样本来源和正样本识别结果,负分类样本包括负样本标题、负样本正文、负样本来源和负样本识别结果;其中,正样本标题为正分类样本的标题,正样本正文为正分类样本的正文,正样本来源为正分类样本的来源信息,正样本识别结果为正分类样本属于目标类别的信息;而负样本标题为负分类样本的标题,负样本正文为负分类样本的正文,负样本来源为负分类样本的来源信息,负样本识别结果为负分类样本属于目标类别的信息。
S107、采用正样本标题、正样本正文和正样本结果,以及负样本标题、负样本正文和负样本结果,对原始关键词分类模型进行训练,得到关键词分类模型。
在本发明实施例中,文本识别设备获得了分类样本之后,搭建原始关键词分类模型,采用正样本标题、正样本正文和正样本结果,以及负样本标题、负样本正文和负样本结果持续对原始关键词分类模型进行训练,直至训练的模型达到收敛平衡时停止训练,此时,也就获得了关键词分类模型。
S108、采用正样本正文、正样本来源和正样本结果,以及负样本正文、负样本来源和负样本结果,对原始普适分类模型进行训练,得到普适分类模型。
在本发明实施例中,文本识别设备获得了分类样本之后,搭建原始普适分类模型,采用正样本正文、正样本来源和正样本结果,以及负样本正文、负样本来源和负样本结果持续对原始普适分类模型进行训练,直至训练的模型达到收敛平衡时停止训练,此时,也就获得了普适分类模型。
S109、采用分类样本、关键词分类模型和普适分类模型,对原始识别分类模型进行训练,得到识别分类模型。
在本发明实施例中,文本识别设备完成关键词分类模型和普适分类模型训练之后,搭建原始识别分类模型,采用分类样本,以及关键词分类模型和普适分类模型分别针对分类样本所输出的结果,持续对原始识别分类模型进行训练,直至训练的模型达到收敛平衡时停止训练,此时,也就获得了识别分类模型。
需要说明的时,类似于使用关键词分类模型和普适分类模型对待识别文本识别的过程,需要获取正样本标题、正样本正文、正样本来源、负样本标题、负样本正文和负样本来源的向量信息,进而根据获取到的正样本标题、正样本正文、正样本来源、负样本标题、负样本正文和负样本来源的向量信息,训练原始关键词分类模型和原始普适分类模型;这里,获取正样本标题、正样本正文、正样本来源、负样本标题、负样本正文和负样本来源的向量信息的过程与分类样本对应的向量信息的获取过程类似,本发明实施例在此不再赘述。
可以理解的是,文本识别设备通过分类样本,训练出关键词分类模型、普适分类模型和识别分类模型,为综合待识别文本自身所表达的信息和普适性两种属性确定待识别文本是否属于目标类别的目标识别结果提供了条件。
进一步地,参见图10,图10是本发明实施例获取分类样本的一个可选流程示意图,如图10所示,在本发明实施例中,S106可以通S1061-S1064实现,即文本识别设备获取分类样本,包括S1061-S1064,下面将结合图10示出的步骤进行说明。
S1061、从文本种子库中,获取与目标关键词对应的第一子正分类样本;目标关键词为预先设置的与目标类别对应的关键词;文本种子库用于存储包含属于目标类别的文本。
在本发明实施例中,文本识别设备中设置有文本种子库,或者文本识别设备能够获取到文本种子库;这里,文本种子库用于存储包含属于目标类别的文本,且文本种子库还存储有不属于目标类别的文本。另外,文本识别设备中还预先设置有与目标类别对应的关键词即目标关键词。因此,文本识别设备初始时从文本种子库中基于目标关键词筛选轻量级的样本即第一子正分类样本。
需要说明的是,由于第一子正分类样本为文本识别设备基于目标关键词获得的,因此,第一子正分类样本为属于目标类别的样本。另外,对于文本识别设备从文本种子库中基于目标关键词筛选轻量级的样本还可以再通过人工标准后,得到第一子正分类样本,如此,获得的第一子正分类样本的准确度高。
S1062、依据第一子正分类样本,持续从文本种子库中选择样本,直到选择出的样本与第一子正分类样本的样本总数量大于样本数量阈值时为止,得到正分类样本。
在本发明实施例中,文本识别设备获得了第一子正分类样本之后,将第一子正分类样本作为继续获取样本的标准信息,而文本识别设备中还预先设置有样本数量阈值;因此,文本识别设备依据第一子正分类样本,持续从文本种子库中选择样本,直到选择出的样本与第一子正分类样本的样本总数量大于样本数量阈值时为止,结束样本的选择,此时也就获得了正分类样本。
S1063、从文本种子库中,获取与正分类样本的相似度小于第一相似度阈值的样本,得到负分类样本。
在本发明实施例中,文本识别设备获得了正分类样本之后,由于正负样本和负分类样本是相对的,因此,在获取负分类样本时,就能够依据正分类样本从文本种子库中获取;这里,文本识别设备计算文本种子库中的文本与正分类样本的相似度,将相似度小于第一相似度阈值的样本作为负分类样本。
S1064、将正分类样本和负分类样本,作为分类样本。
在本发明实施例中,由于分类样本获得了正分类样本和负分类样本,因此,当文本识别设备获得了正分类样本和负分类样本之后,将正分类样本和负分类样本,作为分类样本,也就获得了分类样本。
需要说明的是,文本识别设备在获得了分类样本之后,就能够根据分类样本,对原始关键词分类模型、原始普适分类模型和原始识别分类模型进行训练,得到分别对应的关键词分类模型、普适分类模型和识别分类模型。
进一步地,在本发明实施例中,S1062可以通过S10621-S10625实现,即文本识别设备依据第一子正分类样本,持续从文本种子库中选择样本,直到选择出的样本与第一子正分类样本的样本总数量大于样本数量阈值时为止,得到正分类样本,包括S10621-S10625,下面将结合各步骤进行说明。
S10621、从文本种子库中,选择与第一子正分类样本的相似度大于第二相似度阈值的第二子正分类样本,将第二子正分类样本和第一子正分类样本,作为原始正分类样本。
在本发明实施例中,第一子分类样本的数量为轻量级的,这里,文本识别设备基于第一子分类样本扩展样本数量,通过计算文本种子库中的文本与第一子正分类样本的相似度,并基于相似度进行排序,选择预设选择数量个最大相似度的文本作为第二子正分类样本;或者,基于预设选择数量设置第二相似度阈值,选择与第一子正分类样本的相似度大于第二相似度阈值的文本作为第二子正分类样本。
需要说明的是,文本识别设备获得第二子正分类样本之前,还涉及对选择的文本进行人工标注的处理,如此,获得的第二子正分类样本的准确度高。另外,第二相似度阈值是基于此次要选择的样本的数量(预设选择数量)设置的。
另外,文本识别设备获得了第二子正分类样本之后,利用第二子正分类样本扩充第一子正分类样本,也就得到了原始正分类样本。
S10622、从原始正分类样本中,获取与目标类别的关联度大于关联度阈值的样本,得到初始正分类样本。
在本发明实施例中,文本识别设备获得了原始正分类样本之后,基于目标类别提升原始正分类样本的准确度,即剔除掉原始正分类样本中不属于目标类别的文本;这里,文本识别设备计算原始正分类样本中每个文本与目标类别的关联度,将关联度小于等于关联度阈值的样本剔除,选择关联度大于关联度阈值的样本作为初始正分类样本。
示例性地,当目标类别为活动类别时,文本识别设备利用卡方检验获取原始正分类样本中的核心词,易知,“中秋”为与目标类别的关联度低的词,如果核心词中的前500个核心词中包括“中秋”,则将原始正分类样本中包含中秋的样本剔除;如此,能够将原始正分类样本中的不合理的样本剔除掉,提升样本的准确度。
S10623、利用初始正分类样本训练得到样本分类模型,并利用样本分类模型从文本种子库中选择置信度小于预设置信度的边缘样本,将边缘样本和初始正分类样本组合得到目标正分类样本。
在本发明实施例中,文本识别设备为了获取全面的丰富的样本集,还具备依据初始正分类样本获取边缘样本的功能;这里,首先,文本识别设备基于获得的初始正分类样本,通过强化学习,训练得到用于文本属于目标类别的置信度的模型即样本分类模型(比如,逻辑回归分类器);再后,文本识别设备利用样本分类模型获取文本种子库中文本的置信度,并选择置信度小于预设置信度的样本进行标注,得到边缘样本;最后,文本识别设备利用边缘样本丰富初始正分类样本,即将边缘样本和初始正分类样本进行组合,也就得到了目标正分类样本。
S10624、当目标正分类样本的数量大于样本数量阈值时,将目标正分类样本作为正分类样本。
需要说明的是,文本识别设备获得了目标正分类样本之后,统计目标正分类样本的数量,根据目标正分类样本的数量与样本数量阈值的比较结果确定是否完成了正分类样本的获取。这里,当目标正分类样本的数量大于样本数量阈值时,表明此时文本识别设备已完成了正分类样本的获取,并且,目标正分类样本即正分类样本。
S10625、当目标正分类样本的数量小于等于样本数量阈值时,依据目标正分类样本,持续从文本种子库中选择样本,直到选择出的样本与目标正分类样本的样本总数量大于样本数量阈值时为止,得到正分类样本。
在本发明实施例中,当目标正分类样本的数量小于等于样本数量阈值时,表明此时文本识别设备还要继续获取样本。这里,文本识别设备依据目标正分类样本,将目标正分类样本作为第一子正分类样本并重复S10621-S10624来持续选择样本,直到选择出的样本与目标正分类样本的样本总数量大于样本数量阈值时为止,才完成了正分类样本的获取,此时,正分类样本为选择出的样本与目标正分类样本的组合。
参见图11,图11是本发明实施例提供的获取分类样本的一个示例性的流程示意图,如图11所示,首先,文本识别设备基于目标关键词从文本样本库中选择第一子正分类样本;其次,文本识别设备进行选择相似样本的处理,选择与第一子正分类样本相似的第二子正分类样本,进而进行样本组合,将第一子正分类样本和第二子正分类样本组合为原始正分类样本,并进行卡方检验,从原始正分类样本中选择初始正分类样本;然后,文本识别设备基于初始正分类样本训练模型,得到样本分类模型,并利用样本分类模型选择边缘样本,将边缘样本和初始正分类样本组合得到目标正分类样本;再后,文本识别设备判断总样本数量是否大于预设数量阈值,如果是则获得了正分类样本,如果否则重复执行选择相似样本、样本组合、卡方检验、训练模型和选择边缘样本的处理操作,直到得到大于预设数量阈值的样本时停止,得到正分类样本。最后,文本识别设备基于正分类样本从文本样本库中获得负分类样本,正分类样本和负分类样本组合,得到分类样本。
可以理解的是,文本识别设备通过半监督学习技术(对应S10621-S10622)和强化学习技术(对应S10624),提供了一种获取样本的方法,提高了样本的获取效率,简化了获取样本的复杂性。
进一步地,在本发明实施例中,S107可以通过S1071-S1073实现,即文本识别设备采用正样本标题、正样本正文和正样本结果,以及负样本标题、负样本正文和负样本结果,对原始关键词分类模型训练,得到关键词分类模型,包括S1071-S1073,下面将结合各步骤进行说明。
S1071、采用正样本标题和正样本识别结果,以及负样本标题和负样本识别结果,对原始标题分类模型进行训练,得到标题分类模型。
需要说明的是,关键词分类模型包括标题分类模型和段落分类模型,相应地,原始关键词分类模型为搭建的原始标题分类模型(比如,梯度提升决策树分类器)和搭建的原始段落分类模型(比如,支持向量机分类器)。此时,文本识别设备采用正样本标题和正样本识别结果,以及负样本标题和负样本识别结果,持续对原始标题分类模型进行训练,直到训练的模型达到收敛平衡时停止训练,此时,也就获得了标题分类模型。
S1072、采用正样本正文和正样本识别结果,以及负样本正文和负样本识别结果,对原始段落分类模型进行训练,得到段落分类模型。
需要说明的是,文本识别设备采用正样本正文和正样本识别结果,以及负样本正文和负样本识别结果,持续对原始段落分类模型进行训练,直到训练的模型达到收敛评论时停止训练,此时,也就获得了段落分类模型。
S1073、将标题分类模型和段落分类模型,组合为关键词分类模型。
在本发明实施例中,完成了标题分类模型和段落分类模型的训练之后,将标题分类模型和段落分类模型组合,也就获得了关键词分类模型。
进一步地,在本发明实施例中,S108可以通过S1081-S1083实现,即文本识别设备采用正样本正文、正样本来源和正样本结果,以及负样本正文、负样本来源和负样本结果,对原始普适分类模型训练,得到普适分类模型,包括S1081-S1083,下面将结合各步骤进行说明。
S1081、采用正样本正文和正样本识别结果,以及负样本正文和负样本识别结果,对原始正文分类模型训练,得到正文分类模型。
需要说明的是,普适分类模型包括正文分类模型和来源分类模型,相应地,原始关键词分类模型为搭建的原始正文分类模型(比如,支持向量机分类器)和搭建的原始来源分类模型(比如,梯度提升决策树分类器)。此时,文本识别设备采用正样本正文和正样本识别结果,以及负样本正文和负样本识别结果,持续对原始正文分类模型进行训练,直到训练的模型达到收敛评论时停止训练,此时,也就获得了正文分类模型。
S1082、采用正样本来源和正样本识别结果,以及负样本来源和负样本识别结果,对原始来源分类模型训练,得到来源分类模型。
需要说明的是,文本识别设备采用正样本来源和正样本识别结果,以及负样本来源和负样本识别结果,持续对原始来源分类模型进行训练,直到训练的模型达到收敛评论时停止训练,此时,也就获得了来源分类模型。
S1083、将正文分类模型和来源分类模型,组合为普适分类模型。
在本发明实施例中,完成了普适分类模型和来源分类模型的训练之后,将普适分类模型和来源分类模型组合,也就获得了普适分类模型。
参见图12,图12是本发明实施例提供的训练模型的一种可选流程示意图,如图12所示,一方面,文本识别设备获取分类样本中的正样本标题、正样本识别结果、负样本标题和负样本识别结果,并基于词向量模型对正样本标题和负样本标题进行向量表示,以及将正样本标题和负样本标题的向量表示结果输入至原始标题分类模型,再结合正样本识别结果和负样本识别结果,训练得到标题分类模型。另一方面,文本识别设备获取分类样本中的正样本正文、正样本识别结果、负样本正文和负样本识别结果,并基于文本向量模型对正样本正文和负样本正文进行向量表示,以及利用段落位置信息调整正样本正文和负样本正文的向量表示结果,并将调整后的向量表示结果输入至原始段落分类模型,再结合正样本识别结果和负样本识别结果,训练得到段落分类模型。又一方面,文本识别设备基于获得段落分类模型的训练过程,将正样本正文和负样本正文的向量表示结果输入至原始普适分类模型,再结合正样本识别结果和负样本识别结果,训练得到普适分类模型。再一方面,文本识别设备获取分类样本中的正样本来源和负样本来源,并对正样本来源和负样本来源进行向量表示,将正样本来源和负样本来源的向量表示结果输入至原始来源分类模型,在结合正样本识别结果和负样本识别结果,训练得到来源分类模型。最后,采用标题分类模型、段落分类模型、普适分类模型和来源分类模型对分类样本的输出结果,以及分类样本,训练得到识别分类模型。
需要说明的是,标题分类模型、段落分类模型、普适分类模型和来源分类模型的训练过程中对分类样本的处理过程,与对待识别文本进行识别时的处理过程类似,本发明实施例在此不再赘述。
进一步地,在本发明实施例中,文本识别设备通过识别分类模型,对目标概率值和文本受众度进行融合,得到目标识别结果之后,还可以执行以下步骤:将待识别文本及对应的目标识别结果发送至区块链网络,以使区块链网络的节点将待识别文本及目标识别结果填充至新区块,且当信息区块共识一致时,将新区块追加至区块链的尾部。如此,以保证不可篡改。
进一步地,在本发明实施例中,在S105之后,即文本识别设备通过识别分类模型,对目标概率值和文本受众度进行融合,得到目标识别结果之后,还可以执行以下步骤:根据目标识别结果,对待识别文本进行处理。这里,文本识别设备获得了目标识别结果之后,根据目标识别结果所表征的两种结果分别进行不同的处理,两种结果至待识别文本属于目标类别合格待识别文本不属于目标类别。
进一步地,在本发明实施例中,文本识别设备获得了标题分类模型、段落分类模型、普适分类模型、来源分类模型和识别分类模型之后,当获取到新的分类样本时,采用新的分类样本对标题分类模型、段落分类模型、普适分类模型、来源分类模型和识别分类模型进行优化;此时,文本识别设备根据优化后的标题分类模型、优化后的段落分类模型、优化后的普适分类模型、优化后的来源分类模型和优化后的识别分类模型对待识别文本进行识别。如此,提升了各模型的泛化能力,也提升了目标分类结果的准确度。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
参见图13,图13是本发明实施例提供的文本识别方法的一种示例性应用流程示意图,如图13所示,在媒体平台各应用中的看一看应用(如图14所示)中,所显示的文章为具有阅读价值的文章;由于公众号发布的活动举办时间地点、地方性停水停电通知和招聘招生等黑四类(目标类别,这里指活动类别、总结类别、公告通知类别和招聘招生类别)文章的阅读价值低或受众度低,不适合在看一看应用中显示;因此,需要对待显示的文章(待识别文本)进行判断是否属于黑四类。首先,文本识别设备利用标题分类模型对待显示的文章的标题进行识别,得到标题目标概率值P1;基于段落位置信息,并利用段落分类模型对待显示的文章的正文进行识别,得到正文目标概率值P2;利用正文分类模型对待显示的文章的正文进行识别,得到正文受众度P3;利用来源分类模型对待显示的文章的来源进行识别,得到来源受众度P4。将标题目标概率值P1、正文目标概率值P2、正文受众度P3和来源受众度P4组合为四维向量(P1,P2,P3,P4),输入至识别分类模型,得到目标识别概率值P5(目标识别结果)。然后,根据目标识别概率值P5确定待显示的文章是否属于黑四类,如果是则过滤掉待显示的文章,不在看一看应用中显示;如果否则显示待显示的文章,如图15所示的15-1,另外识别并显示15-2和15-3的过程与15-1类似,本发明实施例在此不再赘述。
下面继续说明本发明实施例提供的文本识别装置255的实施为软件模块的示例性结构,在一些实施例中,如图3所示,存储在存储器250的文本识别装置255中的软件模块可以包括:
信息获取模块2551,用于获取待识别文本;所述待识别文本为包括待识别标题、待识别正文和待识别来源的文本信息;
向量表示模块2552,用于对所述待识别标题、所述待识别正文和所述待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量;
概率值获取模块2553,用于通过关键词分类模型,对所述待识别标题向量和所述段落正文向量进行识别,得到目标概率值;所述关键词分类模型用于确定所述待识别文本属于目标类别的概率值;
受众度获取模块2554,用于通过普适分类模型,对所述待识别正文向量和所述来源特征向量进行识别,得到文本受众度;所述普适分类模型用于确定所述待识别文本的受众度;
识别模块2555,用于通过识别分类模型,对所述目标概率值和所述文本受众度进行融合,得到目标识别结果;所述识别分类模型用于确定所述待识别文本属于所述目标类别的结果。
进一步地,所述向量表示模块2552,还用于对所述待识别标题和所述待识别正文进行向量表示,得到所述待识别标题向量、所述待识别正文向量和所述段落正文向量;对所述待识别来源进行向量表示,得到所述来源特征向量。
进一步地,所述向量表示模块2552,还用于对所述待识别标题和所述待识别正文进行分词处理,得到分别对应的待识别标题分词结果和待识别正文分词结果;利用词向量模型,获取所述待识别标题分词结果的向量信息,得到所述待识别标题向量;所述词向量模型为预先训练的用于将词转换为向量的模型;利用文本向量模型,获取所述待识别正文分词结果的向量信息,得到所述待识别正文向量;所述文本向量模型用于将所述待识别正文分词结果转换为向量;根据段落位置信息,调整所述待识别正文向量,得到所述段落正文向量;所述段落位置信息为预先设置的与所述目标类别对应的段落的位置信息。
进一步地,所述向量表示模块2552,还用于从所述待识别来源中获取地域信息、关注对象数量、绑卡关注对象数量、关注对象地域分布、均阅读量和阅读对象地域分布中的至少之一;依据所述地域信息、所述关注对象数量、所述绑卡关注对象数量、所述关注对象地域分布、所述均阅读量和所述阅读对象地域分布中的至少之一,对所述待识别来源进行向量化表示,得到所述来源特征向量。
进一步地,所述关键词分类模型包括标题分类模型和段落分类模型,所述概率值获取模块2553,还用于通过所述标题分类模型,对所述待识别标题向量进行识别,得到标题目标概率值;通过所述段落分类模型,对所述段落正文向量进行识别,得到正文目标概率值;将所述标题目标概率值和所述正文目标概率值,作为所述目标概率值。
进一步地,所述普适分类模型包括正文分类模型和来源分类模型,所述受众度获取模块2554,还用于通过所述正文分类模型,对所述待识别正文向量进行识别,得到正文受众度;通过所述来源分类模型,对所述来源特征向量进行识别,得到来源受众度;将所述正文受众度和所述来源受众度,作为所述文本受众度。
进一步地,所述文本识别装置255还包括样本获取模块2556和模型训练模块2557,其中,所述样本获取模块2556,用于从文本种子库中,获取与目标关键词对应的第一子正分类样本;所述目标关键词为预先设置的与所述目标类别对应的关键词;所述文本种子库用于存储包含属于所述目标类别的文本;依据所述第一子正分类样本,持续从所述文本种子库中选择样本,直到选择出的样本与所述第一子正分类样本的样本总数量大于样本数量阈值时为止,得到所述正分类样本;从所述文本种子库中,获取与所述正分类样本的相似度小于第一相似度阈值的样本,得到所述负分类样本;将所述正分类样本和所述负分类样本,作为所述分类样本。
所述样本训练模块2557,用于根据所述分类样本,对原始关键词分类模型、原始普适分类模型和原始识别分类模型进行训练,得到分别对应的所述关键词分类模型、所述普适分类模型和所述识别分类模型。
进一步地,所述样本获取模块2556,还用于从所述文本种子库中,选择与所述第一子正分类样本的相似度大于第二相似度阈值的第二子正分类样本,将所述第二子正分类样本和所述第一子正分类样本,作为原始正分类样本;从所述原始正分类样本中,获取与所述目标类别的关联度大于关联度阈值的样本,得到初始正分类样本;利用所述初始正分类样本训练得到样本分类模型,并利用所述样本分类模型从所述文本种子库中选择置信度小于预设置信度的边缘样本,将所述边缘样本和所述初始正分类样本组合得到目标正分类样本;当所述目标正分类样本的数量大于所述样本数量阈值时,将所述目标正分类样本作为所述正分类样本;当所述目标正分类样本的数量小于等于所述样本数量阈值时,依据所述目标正分类样本,持续从所述文本种子库中选择样本,直到选择出的样本与所述目标正分类样本的样本总数量大于所述样本数量阈值时为止,得到所述正分类样本。
进一步地,所述文本识别装置255还包括上链模块2558,所述上链模块2558,用于将所述待识别文本及对应的所述目标识别结果发送至区块链网络,以使所述区块链网络的节点将所述待识别文本及所述目标识别结果填充至新区块,且当所述信息区块共识一致时,将所述新区块追加至区块链的尾部。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的方法,例如,如图7示出的方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本发明实施例,由于待识别文本的目标识别结果是基于待识别文本的标题和正文确定出的属于目标类别的概率值,以及待识别文本的正文和来源确定的受众度共同确定的,是一种综合待识别文本属于目标类别的概率值和待识别文本自身的普适性确定识别结果的方法,因此,待识别文本的目标识别结果的准确度高。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (10)
1.一种文本识别方法,其特征在于,包括:
获取待识别文本;所述待识别文本为包括待识别标题、待识别正文和待识别来源的文本信息;
对所述待识别标题、所述待识别正文和所述待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量;
通过关键词分类模型,对所述待识别标题向量和所述段落正文向量进行识别,得到目标概率值;所述关键词分类模型用于确定所述待识别文本属于目标类别的概率值;
通过普适分类模型,对所述待识别正文向量和所述来源特征向量进行识别,得到文本受众度;所述普适分类模型用于确定所述待识别文本的受众度;
通过识别分类模型,对所述目标概率值和所述文本受众度进行融合,得到目标识别结果;所述识别分类模型用于确定所述待识别文本属于所述目标类别的结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别标题、所述待识别正文和所述待识别来源进行向量表示,得到待识别标题向量、待识别正文向量、段落正文向量和来源特征向量,包括:
对所述待识别标题和所述待识别正文进行向量表示,得到所述待识别标题向量、所述待识别正文向量和所述段落正文向量;
对所述待识别来源进行向量表示,得到所述来源特征向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述待识别标题和所述待识别正文进行向量表示,得到所述待识别标题向量、所述待识别正文向量和所述段落正文向量,包括:
对所述待识别标题和所述待识别正文进行分词处理,得到分别对应的待识别标题分词结果和待识别正文分词结果;
利用词向量模型,获取所述待识别标题分词结果的向量信息,得到所述待识别标题向量;所述词向量模型为预先训练的用于将词转换为向量的模型;
利用文本向量模型,获取所述待识别正文分词结果的向量信息,得到所述待识别正文向量;所述文本向量模型用于将所述待识别正文分词结果转换为向量;
根据段落位置信息,调整所述待识别正文向量,得到所述段落正文向量;所述段落位置信息为预先设置的与所述目标类别对应的段落的位置信息。
4.根据权利要求2或3所述的方法,其特征在于,所述对所述待识别来源进行向量表示,得到所述来源特征向量,包括:
从所述待识别来源中获取地域信息、关注对象数量、绑卡关注对象数量、关注对象地域分布、均阅读量和阅读对象地域分布中的至少之一;
依据所述地域信息、所述关注对象数量、所述绑卡关注对象数量、所述关注对象地域分布、所述均阅读量和所述阅读对象地域分布中的至少之一,对所述待识别来源进行向量化表示,得到所述来源特征向量。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述关键词分类模型包括标题分类模型和段落分类模型,所述通过关键词分类模型,对所述待识别标题向量和所述段落正文向量进行识别,得到目标概率值,包括:
通过所述标题分类模型,对所述待识别标题向量进行识别,得到标题目标概率值;
通过所述段落分类模型,对所述段落正文向量进行识别,得到正文目标概率值;
将所述标题目标概率值和所述正文目标概率值,作为所述目标概率值。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述普适分类模型包括正文分类模型和来源分类模型,所述通过普适分类模型,对所述待识别正文向量和所述来源特征向量进行识别,得到文本受众度,包括:
通过所述正文分类模型,对所述待识别正文向量进行识别,得到正文受众度;
通过所述来源分类模型,对所述来源特征向量进行识别,得到来源受众度;
将所述正文受众度和所述来源受众度,作为所述文本受众度。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述通过关键词分类模型,对所述待识别标题向量和所述段落正文向量进行识别,得到目标概率值之前,所述方法还包括:
从文本种子库中,获取与目标关键词对应的第一子正分类样本;所述目标关键词为预先设置的与所述目标类别对应的关键词;所述文本种子库用于存储包含属于所述目标类别的文本;
依据所述第一子正分类样本,持续从所述文本种子库中选择样本,直到选择出的样本与所述第一子正分类样本的样本总数量大于样本数量阈值时为止,得到正分类样本;
从所述文本种子库中,获取与所述正分类样本的相似度小于第一相似度阈值的样本,得到负分类样本;
将所述正分类样本和所述负分类样本,作为分类样本;
根据所述分类样本,对原始关键词分类模型、原始普适分类模型和原始识别分类模型进行训练,得到分别对应的所述关键词分类模型、所述普适分类模型和所述识别分类模型。
8.根据权利要求7所述的方法,其特征在于,所述依据所述第一子正分类样本,持续从所述文本种子库中选择样本,直到选择出的样本与所述第一子正分类样本的样本总数量大于样本数量阈值时为止,得到所述正分类样本,包括:
从所述文本种子库中,选择与所述第一子正分类样本的相似度大于第二相似度阈值的第二子正分类样本,将所述第二子正分类样本和所述第一子正分类样本,作为原始正分类样本;
从所述原始正分类样本中,获取与所述目标类别的关联度大于关联度阈值的样本,得到初始正分类样本;
利用所述初始正分类样本训练得到样本分类模型,并利用所述样本分类模型从所述文本种子库中选择置信度小于预设置信度的边缘样本,将所述边缘样本和所述初始正分类样本组合得到目标正分类样本;
当所述目标正分类样本的数量大于所述样本数量阈值时,将所述目标正分类样本作为所述正分类样本;
当所述目标正分类样本的数量小于等于所述样本数量阈值时,依据所述目标正分类样本,持续从所述文本种子库中选择样本,直到选择出的样本与所述目标正分类样本的样本总数量大于所述样本数量阈值时为止,得到所述正分类样本。
9.根据权利要求1至3任一项所述的方法,其特征在于,所述通过识别分类模型,对所述目标概率值和所述文本受众度进行融合,得到目标识别结果,之后,所述方法还包括:
将所述待识别文本及对应的所述目标识别结果发送至区块链网络,以使
所述区块链网络的节点将所述待识别文本及所述目标识别结果填充至新区块,且当所述信息区块共识一致时,将所述新区块追加至区块链的尾部。
10.一种文本识别设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843954.1A CN110569361B (zh) | 2019-09-06 | 2019-09-06 | 一种文本识别方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843954.1A CN110569361B (zh) | 2019-09-06 | 2019-09-06 | 一种文本识别方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569361A true CN110569361A (zh) | 2019-12-13 |
CN110569361B CN110569361B (zh) | 2021-10-19 |
Family
ID=68778366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910843954.1A Active CN110569361B (zh) | 2019-09-06 | 2019-09-06 | 一种文本识别方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569361B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310436A (zh) * | 2020-02-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本处理方法、装置及电子设备 |
CN111460267A (zh) * | 2020-04-01 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 对象识别方法、装置和系统 |
CN111553167A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 文本类型识别方法和装置及存储介质 |
CN111639250A (zh) * | 2020-06-05 | 2020-09-08 | 深圳市小满科技有限公司 | 企业描述信息获取方法、装置、电子设备及存储介质 |
CN111695353A (zh) * | 2020-06-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 时效性文本的识别方法、装置、设备及存储介质 |
CN112269856A (zh) * | 2020-09-23 | 2021-01-26 | 咪咕文化科技有限公司 | 文本相似度计算方法、装置、电子设备及存储介质 |
CN112434555A (zh) * | 2020-10-16 | 2021-03-02 | 泰康保险集团股份有限公司 | 键值对区域识别方法、装置、存储介质和电子设备 |
CN112580366A (zh) * | 2020-11-30 | 2021-03-30 | 科大讯飞股份有限公司 | 情绪识别方法以及电子设备、存储装置 |
CN112749561A (zh) * | 2020-04-17 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及设备 |
CN112784047A (zh) * | 2021-01-25 | 2021-05-11 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN112800771A (zh) * | 2020-02-17 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 文章识别方法、装置、计算机可读存储介质和计算机设备 |
CN112800227A (zh) * | 2021-01-29 | 2021-05-14 | 科大讯飞股份有限公司 | 文本分类模型的训练方法及其设备、存储介质 |
CN113239200A (zh) * | 2021-05-20 | 2021-08-10 | 东北农业大学 | 内容识别分类方法、装置、系统及存储介质 |
CN113268560A (zh) * | 2020-02-17 | 2021-08-17 | 北京沃东天骏信息技术有限公司 | 用于文本匹配的方法和装置 |
CN113742785A (zh) * | 2020-05-28 | 2021-12-03 | 深信服科技股份有限公司 | 一种网页分类方法、装置、电子设备及存储介质 |
CN114090779A (zh) * | 2022-01-11 | 2022-02-25 | 中南大学 | 篇章级文本的层级多标签分类方法、系统、设备及介质 |
CN114565928A (zh) * | 2022-03-01 | 2022-05-31 | 北京字节跳动网络技术有限公司 | 文本识别方法、装置、设备及存储介质 |
CN114706961A (zh) * | 2022-01-20 | 2022-07-05 | 平安国际智慧城市科技股份有限公司 | 目标文本识别方法、装置及存储介质 |
CN115345239A (zh) * | 2022-08-17 | 2022-11-15 | 无锡迅杰光远科技有限公司 | 样品含量识别方法、装置和存储介质 |
CN116467607A (zh) * | 2023-03-28 | 2023-07-21 | 阿里巴巴(中国)有限公司 | 信息匹配方法和存储介质 |
WO2023236246A1 (zh) * | 2022-06-06 | 2023-12-14 | 青岛海尔科技有限公司 | 文本信息的识别方法和装置、存储介质和电子装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110040837A1 (en) * | 2009-08-14 | 2011-02-17 | Tal Eden | Methods and apparatus to classify text communications |
CN105677764A (zh) * | 2015-12-30 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN105760474A (zh) * | 2016-02-14 | 2016-07-13 | Tcl集团股份有限公司 | 一种基于位置信息的文档集的特征词提取方法及系统 |
CN107368592A (zh) * | 2017-07-26 | 2017-11-21 | 成都科来软件有限公司 | 一种用于网络安全报告的文本特征模型建模方法及装置 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109753567A (zh) * | 2019-01-31 | 2019-05-14 | 安徽大学 | 一种结合标题与正文注意力机制的文本分类方法 |
-
2019
- 2019-09-06 CN CN201910843954.1A patent/CN110569361B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110040837A1 (en) * | 2009-08-14 | 2011-02-17 | Tal Eden | Methods and apparatus to classify text communications |
CN105677764A (zh) * | 2015-12-30 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN105760474A (zh) * | 2016-02-14 | 2016-07-13 | Tcl集团股份有限公司 | 一种基于位置信息的文档集的特征词提取方法及系统 |
CN107368592A (zh) * | 2017-07-26 | 2017-11-21 | 成都科来软件有限公司 | 一种用于网络安全报告的文本特征模型建模方法及装置 |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109753567A (zh) * | 2019-01-31 | 2019-05-14 | 安徽大学 | 一种结合标题与正文注意力机制的文本分类方法 |
Non-Patent Citations (3)
Title |
---|
DONGLIANG LIAO 等: "Popularity Prediction on Online Articles with Deep Fusion of Temporal Process and Content Features", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
孟佳娜 等: "基于特征贡献度的特征选择方法在文本分类中应用", 《大连理工大学学报》 * |
张永 等: "结构特征和内容分析融合的博客文章分类", 《计算机工程与应用》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310436A (zh) * | 2020-02-11 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本处理方法、装置及电子设备 |
CN111310436B (zh) * | 2020-02-11 | 2022-02-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本处理方法、装置及电子设备 |
CN112800771B (zh) * | 2020-02-17 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 文章识别方法、装置、计算机可读存储介质和计算机设备 |
CN112800771A (zh) * | 2020-02-17 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 文章识别方法、装置、计算机可读存储介质和计算机设备 |
CN113268560A (zh) * | 2020-02-17 | 2021-08-17 | 北京沃东天骏信息技术有限公司 | 用于文本匹配的方法和装置 |
CN111460267B (zh) * | 2020-04-01 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 对象识别方法、装置和系统 |
CN111460267A (zh) * | 2020-04-01 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 对象识别方法、装置和系统 |
CN112749561B (zh) * | 2020-04-17 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及设备 |
CN112749561A (zh) * | 2020-04-17 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及设备 |
CN111553167A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 文本类型识别方法和装置及存储介质 |
CN113742785A (zh) * | 2020-05-28 | 2021-12-03 | 深信服科技股份有限公司 | 一种网页分类方法、装置、电子设备及存储介质 |
CN111639250B (zh) * | 2020-06-05 | 2023-05-16 | 深圳市小满科技有限公司 | 企业描述信息获取方法、装置、电子设备及存储介质 |
CN111639250A (zh) * | 2020-06-05 | 2020-09-08 | 深圳市小满科技有限公司 | 企业描述信息获取方法、装置、电子设备及存储介质 |
CN111695353A (zh) * | 2020-06-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 时效性文本的识别方法、装置、设备及存储介质 |
CN112269856B (zh) * | 2020-09-23 | 2023-11-10 | 咪咕文化科技有限公司 | 文本相似度计算方法、装置、电子设备及存储介质 |
CN112269856A (zh) * | 2020-09-23 | 2021-01-26 | 咪咕文化科技有限公司 | 文本相似度计算方法、装置、电子设备及存储介质 |
CN112434555A (zh) * | 2020-10-16 | 2021-03-02 | 泰康保险集团股份有限公司 | 键值对区域识别方法、装置、存储介质和电子设备 |
CN112434555B (zh) * | 2020-10-16 | 2024-04-09 | 泰康保险集团股份有限公司 | 键值对区域识别方法、装置、存储介质和电子设备 |
CN112580366B (zh) * | 2020-11-30 | 2024-02-13 | 科大讯飞股份有限公司 | 情绪识别方法以及电子设备、存储装置 |
CN112580366A (zh) * | 2020-11-30 | 2021-03-30 | 科大讯飞股份有限公司 | 情绪识别方法以及电子设备、存储装置 |
CN112784047A (zh) * | 2021-01-25 | 2021-05-11 | 重庆邮电大学 | 一种基于自注意力机制的可控可解释司法文本分类方法 |
CN112800227A (zh) * | 2021-01-29 | 2021-05-14 | 科大讯飞股份有限公司 | 文本分类模型的训练方法及其设备、存储介质 |
CN112800227B (zh) * | 2021-01-29 | 2023-01-17 | 科大讯飞股份有限公司 | 文本分类模型的训练方法及其设备、存储介质 |
CN113239200A (zh) * | 2021-05-20 | 2021-08-10 | 东北农业大学 | 内容识别分类方法、装置、系统及存储介质 |
CN114090779A (zh) * | 2022-01-11 | 2022-02-25 | 中南大学 | 篇章级文本的层级多标签分类方法、系统、设备及介质 |
CN114090779B (zh) * | 2022-01-11 | 2022-04-22 | 中南大学 | 篇章级文本的层级多标签分类方法、系统、设备及介质 |
CN114706961A (zh) * | 2022-01-20 | 2022-07-05 | 平安国际智慧城市科技股份有限公司 | 目标文本识别方法、装置及存储介质 |
CN114565928A (zh) * | 2022-03-01 | 2022-05-31 | 北京字节跳动网络技术有限公司 | 文本识别方法、装置、设备及存储介质 |
CN114565928B (zh) * | 2022-03-01 | 2024-07-23 | 北京字节跳动网络技术有限公司 | 文本识别方法、装置、设备及存储介质 |
WO2023236246A1 (zh) * | 2022-06-06 | 2023-12-14 | 青岛海尔科技有限公司 | 文本信息的识别方法和装置、存储介质和电子装置 |
CN115345239B (zh) * | 2022-08-17 | 2023-10-13 | 无锡迅杰光远科技有限公司 | 样品含量识别方法、装置和存储介质 |
CN115345239A (zh) * | 2022-08-17 | 2022-11-15 | 无锡迅杰光远科技有限公司 | 样品含量识别方法、装置和存储介质 |
CN116467607A (zh) * | 2023-03-28 | 2023-07-21 | 阿里巴巴(中国)有限公司 | 信息匹配方法和存储介质 |
CN116467607B (zh) * | 2023-03-28 | 2024-03-01 | 阿里巴巴(中国)有限公司 | 信息匹配方法和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110569361B (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569361B (zh) | 一种文本识别方法及设备 | |
US11599714B2 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
CN111177569B (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
US20210117417A1 (en) | Real-time content analysis and ranking | |
CN111310436B (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
WO2019043379A1 (en) | CONTROL OF FACTS | |
US20140279774A1 (en) | Classifying Resources Using a Deep Network | |
CN111444181B (zh) | 知识图谱更新方法、装置及电子设备 | |
CN110597963A (zh) | 表情问答库的构建方法、表情搜索方法、装置及存储介质 | |
CN112580352B (zh) | 关键词提取方法、装置和设备及计算机存储介质 | |
CN111813905A (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN112749561B (zh) | 一种实体识别方法及设备 | |
CN111506794A (zh) | 一种基于机器学习的谣言管理方法和装置 | |
US11727058B2 (en) | Unsupervised automatic taxonomy graph construction using search queries | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN114511085A (zh) | 实体属性值的识别方法、装置、设备、介质及程序产品 | |
CN112765966B (zh) | 联想词去重方法及装置、计算机可读存储介质和电子设备 | |
CN116150663A (zh) | 数据分级方法、装置、计算机设备和存储介质 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN111813936A (zh) | 基于深度学习的新闻资讯呈现方法及相关设备 | |
CN113033209B (zh) | 文本关系抽取方法、装置、存储介质及计算机设备 | |
CN115114519A (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221124 Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133 Patentee after: Shenzhen Yayue Technology Co.,Ltd. Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TR01 | Transfer of patent right |