CN112380866A - 一种文本话题标签生成方法、终端设备及存储介质 - Google Patents
一种文本话题标签生成方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112380866A CN112380866A CN202011334632.3A CN202011334632A CN112380866A CN 112380866 A CN112380866 A CN 112380866A CN 202011334632 A CN202011334632 A CN 202011334632A CN 112380866 A CN112380866 A CN 112380866A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- topic
- neural network
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000005406 washing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 230000006698 induction Effects 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003673 groundwater Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种文本话题标签生成方法、终端设备及存储介质,该方法中包括:S1:将待识别话题文本进行数据清洗后,进行命名实体识别;S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,构建神经网络模型,通过训练集对神经网络模型进行训练,其中样本中的一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。本发明通过逻辑语义标签训练生成,可对大范围文本进行话题语义的关联度量,将文本相似度范围进行可解释性归纳。
Description
技术领域
本发明涉及文本处理领域,尤其涉及一种文本话题标签生成方法、终端设备及存储介质。
背景技术
随着网络数据的高速膨胀增长,智能数据搜索的需求与日俱增。通过设置相关的搜索条件、关键字标签可以获取到所关注事物事件的新闻、评论等相关知识。而各个大数据中心的建立也需要对原始数据进行逻辑整理与标签化。基于语义信息的逻辑推理标签可以帮助人们在数据中心获取到逻辑语义上而非字符层面上更具关联的信息,在数据中心构建广范围的数据关联及数据推理中提供便利。
现有技术对数据库内容整理主要分为两个方向,一是基于线上信息的直接整理,主要利用网页链接的关联结构,或互联网文本本身检索时带有标签属性;当原始线上文本不带有类似标签分类信息时,数据整理的方法往往依靠人工整备标签内容及类别再利用机器学习方法进行标记训练。线上抓取方式依赖于原始内容标签及互联网链接关系,这会在数据整理过程中产生大量缺省值,导致数据关联稀疏;机器学习方法训练标签分类主要存在耗费人力大、标签覆盖面少,训练结果较为机械缺乏灵活性等缺点。
发明内容
为了解决上述问题,本发明提出了一种文本话题标签生成方法、终端设备及存储介质,在互联网文本缺乏自带话题标签的情形下,对长文本做多话题打标,实现文本内容的话题概括,为多文本内容构建话题关联。
具体方案如下:
一种文本话题标签生成方法,包括以下步骤:
S1:将待识别话题文本进行数据清洗后,进行命名实体识别,获得待识别话题文本对应的所有命名实体;
S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,一对多的词汇组合形式为一个词对应多个该词的语义关联词;构建神经网络模型,通过训练集对神经网络模型进行训练,其中训练集样本的一对多的词汇组合形式中,一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;
S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。
进一步的,步骤S1中数据清洗包括以下步骤:
S101:将待识别话题文本进行分句处理,划分为多个句子;
S102:去除所有句子中的格式化语段;
S103:对每个句子进行分词、词性识别、去除停用词和去除无意义符号的处理。
进一步的,步骤S1中将命名实体识别结果中的单字实体去除后,作为待识别话题文本对应的命名实体。
进一步的,步骤S2中每个词对应的语义关联词的抽取过程包括以下步骤:
S201:获取每个词对应的多条词汇解释词条;
S202:针对多条词条的被解释词部分,去除由二级汉字构成的词条,并且只保留名词、动词和形容词三种类别的词汇构成的词条;
S203:针对每条词条的解释语部分,去除发音和例句部分,去除无意义的符号,进行分词处理和词性识别;
S204:根据被解释词的词性,抽取解释语中的对应词性的词作为被解释词对应的语义关联词。
进一步的,神经网络模型的网络结构为多层感知机网络结构,其中前三层为全连接网络,后三层对应输出端为各自独立的全连接网络。
进一步的,神经网络模型的损失函数loss为:
进一步的,步骤S3中清洗和筛选包括:去除标点符号,去除5个字以上的长词汇、去除单字词汇和去除由二级汉字构成的词汇。
一种文本话题标签生成终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,通过逻辑语义标签训练生成,可对大范围文本进行话题语义的关联度量,将文本相似度范围进行可解释性归纳,为检索提供更优质的服务。
附图说明
图1所示为本发明实施例一方法的流程图。
图2所示为该实施例中数据清洗过程的流程图。
图3所示为该实施例中语义关联词的抽取过程的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例提供了一种文本话题标签生成方法,如图1所示,其为本发明实施例所述的文本话题标签生成方法的流程图,所述方法包括以下步骤:
S1:将待识别话题文本进行数据清洗后,进行命名实体识别,获得待识别话题文本对应的所有命名实体。
由于待识别话题文本往往为长句子,且其内包含格式化语段、停用词、无意义符号等对命名实体识别造成影响的内容,因此,需要在命名实体识别前对齐进行数据清洗。
如图2所示,该实施例中,数据清洗包括以下步骤:
S101:将待识别话题文本进行分句处理,划分为多个句子。
分句处理可以按照文本中的逗号,句号,叹号,问号,以及空格等来进行句子的边界界定。每一篇长文本可界定出多条单句。
S102:去除所有句子中的格式化语段。
格式化语段具体可以为文段开头的账号名、转发标志语、系统提示语等。
S103:对每个句子进行分词、词性识别、去除停用词和去除无意义符号的处理。
该实施例中保留中文常用的句号,逗号,叹号,问号,省略号作为合法文本,其余标点统一进行删除。
去除停用词使用词性识别结果进行去除,去除文本句子中的助词、数词、连词、量词、介词和副词。
命名实体识别可以采用公知的常用方法进行即可,该实施例中采用开源模型BERT执行命名实体识别,训练集采用自有数据集进行采样标注,每一个命名实体标注选择BIESO标注法进行字符级别标注,分别表示B(begin)I(inside)E(end)S(single)O(other)用来标注多个字符构成的实体的“开始字符”“中间字符”“结束字符”“单一字符实体”“非实体”。
将命名实体识别结果中的单字实体去除后,作为待识别话题文本对应的命名实体。
S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,一对多的词汇组合形式为一个词对应多个该词的语义关联词;构建神经网络模型,通过训练集对神经网络模型进行训练,其中训练集样本的一对多的词汇组合形式中,一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出。
如图3所示,该实施例中每个词对应的语义关联词的抽取过程包括以下步骤:
S201:获取每个词对应的多条词汇解释词条。
该实施例中,以《现代汉语词典》中出现的词汇为基础,去除由二级汉字构成的词汇后,针对每个词,从互联网百科数据搜索结果中获取返回的多条词汇解释词条。
S202:针对多条词条的被解释词部分,去除由二级汉字构成的词条,并且只保留名词、动词和形容词三种类别的词汇构成的词条。
S203:针对每条词条的解释语部分,去除发音和例句部分,去除无意义的符号,进行分词处理和词性识别。
S204:根据每条被解释词的词性,抽取解释语中的对应词性的词作为被解释词对应的语义关联词。
当被解释词为名词时,抽取解释语中的名词;当被解释词为动词时,抽取解释语中的动词;被解释词为形容词时,抽取解释语中的形容词。
由于最终需要抽取出一对多的词汇组合,由于百科中的词条数据对一个汉语基础词汇的解释通常由多名相关领域专家反复推敲而定,并且在词汇的解释语句上通常会选用相同词性具有强语义关联的词汇来进行解释,以名词为例,词典通常会使用该词汇的上位词,下位词以及与之具有直接语义关系的名词进行刻画,如:“暗流:社会,地下水,思想,倾向,动态”,因此,按照本实施例中的被解释词与解释语中抽取的词相同词性的规则进行抽取后,将得到形如“霸道:猛烈,厉害”的数据形式。
为了能够更明确的体现映射关系,该实施例中构建的神经网络模型的网络结构为多层感知机网络结构。其中前三层为全连接网络,后三层对应输出端为各自独立的全连接网络。后三层网络连接输出端各自独立是为了避免这种补齐长度时的重复信息造成的干扰。
输出端采用余弦相似度作为损失loss,计算公式如下:
需要说明的是,由于词不能直接作为模型的输入和输出,因此,该实施例中通过相似词表将每个词转换为相似词表内对应的向量,通过向量来对模型进行训练。
S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。
该实施例中,将每个命名实体输入训练后的神经网络模型后,输入了n个相似向量,对每个相似向量在相似词表内进行相似词汇检索,获取前t个相似度最大的词汇,因此,每个命名实体对应输出了n*t个结果词汇。
由于这些结果词汇中可能包含近义词,因此还需要进行清洗和筛选。该实施例中清洗和筛选包括:去除标点符号,去除5个字以上的长词汇、去除单字词汇和去除由二级汉字构成的词汇。最终保留的结果为组成标签的词汇。这些词汇将作为该文段的逻辑标签与文段共同存储。若有其他文段具有相同标签,或标签向量相似度在0.8以上,则合并标签。
本发明实施例将互联网百科数据中的核心解释文本作为原始数据,进行数据清洗,构成不限定词性范围的词类比一对多关系,在静态词向量空间做映射训练使得神经网络模型对新词汇具有更广范围的逻辑推理能力。通过神经网络模型对进行命名实体识别后的语段进行话题标签生成。借用神经网络模型从互联网文本中抽取命名实体再进行话题标签生成,使得对互联网文本获得一个自动打标的标签结果,能够更好的在数据库中整合数据。
实施例二:
本发明还提供一种文本话题标签生成终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述文本话题标签生成终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文本话题标签生成终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述文本话题标签生成终端设备的组成结构仅仅是文本话题标签生成终端设备的示例,并不构成对文本话题标签生成终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述文本话题标签生成终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述文本话题标签生成终端设备的控制中心,利用各种接口和线路连接整个文本话题标签生成终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述文本话题标签生成终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述文本话题标签生成终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (9)
1.一种文本话题标签生成方法,其特征在于,包括以下步骤:
S1:将待识别话题文本进行数据清洗后,进行命名实体识别,获得待识别话题文本对应的所有命名实体;
S2:采集数据并构建一对多的词汇组合形式的样本组成训练集,一对多的词汇组合形式为一个词对应多个该词的语义关联词;构建神经网络模型,通过训练集对神经网络模型进行训练,其中训练集样本的一对多的词汇组合形式中,一个词作为神经网络模型的输入,该词对应的多个语义关联词作为神经网络模型的输出;
S3:将待识别话题文本对应的每个命名实体依次输入训练后的神经网络模型后,获得输出的多个词,并对多个词进行清洗和筛选后,将清洗和筛选后的结果作为命名实体对应的标签。
2.根据权利要求1所述的文本话题标签生成方法,其特征在于:步骤S1中数据清洗包括以下步骤:
S101:将待识别话题文本进行分句处理,划分为多个句子;
S102:去除所有句子中的格式化语段;
S103:对每个句子进行分词、词性识别、去除停用词和去除无意义符号的处理。
3.根据权利要求1所述的文本话题标签生成方法,其特征在于:步骤S1中将命名实体识别结果中的单字实体去除后,作为待识别话题文本对应的命名实体。
4.根据权利要求1所述的文本话题标签生成方法,其特征在于:步骤S2中每个词对应的语义关联词的抽取过程包括以下步骤:
S201:获取每个词对应的多条词汇解释词条;
S202:针对多条词条的被解释词部分,去除由二级汉字构成的词条,并且只保留名词、动词和形容词三种类别的词汇构成的词条;
S203:针对每条词条的解释语部分,去除发音和例句部分,去除无意义的符号,进行分词处理和词性识别;
S204:根据被解释词的词性,抽取解释语中的对应词性的词作为被解释词对应的语义关联词。
5.根据权利要求1所述的文本话题标签生成方法,其特征在于:神经网络模型的网络结构为多层感知机网络结构,其中前三层为全连接网络,后三层对应输出端为各自独立的全连接网络。
7.根据权利要求1所述的文本话题标签生成方法,其特征在于:步骤S3中清洗和筛选包括:去除标点符号,去除5个字以上的长词汇、去除单字词汇和去除由二级汉字构成的词汇。
8.一种文本话题标签生成终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7中任一所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~7中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011334632.3A CN112380866A (zh) | 2020-11-25 | 2020-11-25 | 一种文本话题标签生成方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011334632.3A CN112380866A (zh) | 2020-11-25 | 2020-11-25 | 一种文本话题标签生成方法、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380866A true CN112380866A (zh) | 2021-02-19 |
Family
ID=74588246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011334632.3A Pending CN112380866A (zh) | 2020-11-25 | 2020-11-25 | 一种文本话题标签生成方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380866A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139069A (zh) * | 2021-05-14 | 2021-07-20 | 上海交通大学 | 面向知识图谱构建的电力故障中文文本实体识别方法及系统 |
CN113283218A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 一种语义文本压缩方法及计算机设备 |
CN113408317A (zh) * | 2021-07-15 | 2021-09-17 | 中国南方电网有限责任公司 | 一种智能标签粘贴监测方法及系统 |
WO2023098658A1 (zh) * | 2022-08-02 | 2023-06-08 | 深圳市城市公共安全技术研究院有限公司 | 文本衔接性判断方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462053A (zh) * | 2013-09-22 | 2015-03-25 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
US20170364503A1 (en) * | 2016-06-17 | 2017-12-21 | Abbyy Infopoisk Llc | Multi-stage recognition of named entities in natural language text based on morphological and semantic features |
CN107957991A (zh) * | 2017-12-05 | 2018-04-24 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN109766453A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种用户语料语义理解的方法及系统 |
CN110188347A (zh) * | 2019-04-29 | 2019-08-30 | 西安交通大学 | 一种面向文本的知识主题间认知关系抽取方法 |
CN110263319A (zh) * | 2019-03-21 | 2019-09-20 | 国家计算机网络与信息安全管理中心 | 一种基于网页文本的学者观点抽取方法 |
CN110717331A (zh) * | 2019-10-21 | 2020-01-21 | 北京爱医博通信息技术有限公司 | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 |
CN110990525A (zh) * | 2019-11-15 | 2020-04-10 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及系统 |
CN111435410A (zh) * | 2019-01-14 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 用于医疗文本的关系抽取方法及其装置 |
CN111709242A (zh) * | 2020-06-01 | 2020-09-25 | 广州多益网络股份有限公司 | 一种基于命名实体识别的中文标点符号添加方法 |
-
2020
- 2020-11-25 CN CN202011334632.3A patent/CN112380866A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462053A (zh) * | 2013-09-22 | 2015-03-25 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
US20170364503A1 (en) * | 2016-06-17 | 2017-12-21 | Abbyy Infopoisk Llc | Multi-stage recognition of named entities in natural language text based on morphological and semantic features |
CN107957991A (zh) * | 2017-12-05 | 2018-04-24 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN111435410A (zh) * | 2019-01-14 | 2020-07-21 | 阿里巴巴集团控股有限公司 | 用于医疗文本的关系抽取方法及其装置 |
CN109766453A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种用户语料语义理解的方法及系统 |
CN110263319A (zh) * | 2019-03-21 | 2019-09-20 | 国家计算机网络与信息安全管理中心 | 一种基于网页文本的学者观点抽取方法 |
CN110188347A (zh) * | 2019-04-29 | 2019-08-30 | 西安交通大学 | 一种面向文本的知识主题间认知关系抽取方法 |
CN110717331A (zh) * | 2019-10-21 | 2020-01-21 | 北京爱医博通信息技术有限公司 | 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质 |
CN110990525A (zh) * | 2019-11-15 | 2020-04-10 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 |
CN111078978A (zh) * | 2019-11-29 | 2020-04-28 | 上海观安信息技术股份有限公司 | 一种基于网站文本内容的网贷网站实体识别方法及系统 |
CN111709242A (zh) * | 2020-06-01 | 2020-09-25 | 广州多益网络股份有限公司 | 一种基于命名实体识别的中文标点符号添加方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139069A (zh) * | 2021-05-14 | 2021-07-20 | 上海交通大学 | 面向知识图谱构建的电力故障中文文本实体识别方法及系统 |
CN113139069B (zh) * | 2021-05-14 | 2022-10-18 | 上海交通大学 | 一种文本实体识别方法及系统 |
CN113283218A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 一种语义文本压缩方法及计算机设备 |
CN113408317A (zh) * | 2021-07-15 | 2021-09-17 | 中国南方电网有限责任公司 | 一种智能标签粘贴监测方法及系统 |
WO2023098658A1 (zh) * | 2022-08-02 | 2023-06-08 | 深圳市城市公共安全技术研究院有限公司 | 文本衔接性判断方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
JP5167546B2 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
CN113177412A (zh) | 基于bert的命名实体识别方法、系统、电子设备及存储介质 | |
CN115438166A (zh) | 基于关键词和语义的搜索方法、装置、设备及存储介质 | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN112270188A (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
KR20120064559A (ko) | 오픈 웹 질의응답을 위한 질문분석 장치 및 방법 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
US11436278B2 (en) | Database creation apparatus and search system | |
Wong et al. | isentenizer-: Multilingual sentence boundary detection model | |
CN110020024B (zh) | 一种科技文献中链接资源的分类方法、系统、设备 | |
CN111681731A (zh) | 一种对检查报告进行自动颜色标注的方法 | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
CN111046168A (zh) | 用于生成专利概述信息的方法、装置、电子设备和介质 | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
CN113536802A (zh) | 小语种文本数据的情感判别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |