CN113656561A - 实体词识别方法、装置、设备、存储介质及程序产品 - Google Patents

实体词识别方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN113656561A
CN113656561A CN202111218556.4A CN202111218556A CN113656561A CN 113656561 A CN113656561 A CN 113656561A CN 202111218556 A CN202111218556 A CN 202111218556A CN 113656561 A CN113656561 A CN 113656561A
Authority
CN
China
Prior art keywords
entity
characters
candidate
target text
text content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111218556.4A
Other languages
English (en)
Inventor
王明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111218556.4A priority Critical patent/CN113656561A/zh
Publication of CN113656561A publication Critical patent/CN113656561A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开一种实体词识别方法、装置、设备、存储介质及程序产品,涉及机器学习领域。该方法包括:获取目标文本内容并将目标文本内容中的字符与实体库进行匹配,得到与字符具有关联关系的候选实体词;将字符与候选实体词进行混合编码,得到至少两个编码特征;从中确定与目标文本内容的文本长度对应的候选编码特征并对其进行实体词预测,得到实体词识别结果。即,候选编码特征不依靠人工提取,通过与实体库进行匹配获取候选实体词,将其与目标文本内容中的字符进行混合编码获取编码特征,提高实体词识别效率,获取候选实体词进行混合编码能够提高模型识别结果准确率。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

Description

实体词识别方法、装置、设备、存储介质及程序产品
技术领域
本申请实施例涉及机器学习领域,特别涉及一种实体词识别方法、装置、设备、存储介质及程序产品。
背景技术
实体词识别又称为实体抽取,是指从语句中识别出实体对应的属性结果,其中,待识别的语句通常为包含实体词的语句,如:来一首忘情水,则该语句中包含的实体为忘情水,属性结果为歌曲,通过对语句进行实体词识别来确定文本中的有效信息。
相关技术中,实体词识别主要基于人工特征工程,依靠经历多次试验并手工提取的特征来确定语句中的实体词。通过构建实体词识别模型对输入的文本信息进行实体抽取并分析,最终得到实体词识别结果。
然而相关技术中的方案,通常会存在特征工程标注耗时长,浪费人力物体的问题。且依靠人工提取的实体词特征数量有限,模型性能较差,实体词识别结果准确度较低。
发明内容
本申请实施例提供了一种实体词识别方法、装置、设备、存储介质及程序产品,能够提高目标文本内容的实体词识别准确率。所述技术方案如下。
一方面,提供了一种实体词识别方法,所述方法包括:
获取目标文本内容,所述目标文本内容为待进行实体词识别的内容,所述目标文本内容中包括按序排列的字符;
将所述目标文本内容中的字符与实体库进行匹配,得到所述实体库中与所述字符具有关联关系的候选实体词,其中,所述实体库中包括预先设定的实体词的集合;
将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征;
从所述至少两个编码特征中确定出与所述目标文本内容的文本长度对应的候选编码特征;
对所述候选编码特征进行实体词预测,得到所述目标文本内容的实体词识别结果。
另一方面,提供了一种实体词识别装置,所述装置包括:
获取模块,用于获取目标文本内容,所述目标文本内容为待进行实体词识别的内容,所述目标文本内容中包括按序排列的字符;
匹配模块,用于将所述目标文本内容中的字符与实体库进行匹配,得到所述实体库中与所述字符具有关联关系的候选实体词,其中,所述实体库中包括预先设定的实体词的集合;
编码模块,用于将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征;
确定模块,用于从所述至少两个编码特征中确定出与所述目标文本内容的文本长度对应的候选编码特征;
预测模块,用于对所述候选编码特征进行实体词预测,得到所述目标文本内容的实体词识别结果。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述实体词识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的实体词识别方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的实体词识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
目标文本内容中字符对应的候选编码特征不依靠相关技术中的人工提取特征生成,而是通过构建实体库,将目标文本内容按序排列的字符与实体库进行匹配,得到与字符具有关联关系的候选实体词,将字符与候选实体词进行混合编码,得到编码特征,选取与目标文本内容的文本长度对应的候选编码特征对其进行实体词预测,得到实体词识别结果,提高了实体词的识别准确率,也间接提高了实体词识别的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性的实施例提供的相关技术示意图;
图2是本申请一个示例性实施例提供的实施环境示意图;
图3是本申请一个示例性实施例提供的实体词识别方法的整体过程示意图;
图4是本申请一个示例性实施例提供的实体词识别方法流程图;
图5是本申请另一个示例性实施例提供的实体词识别方法流程图;
图6是本申请另一个示例性实施例提供的实体库界面示意图;
图7是本申请另一个示例性实施例提供的实体词识别方法流程图;
图8是本申请一个示例性实施例提供的混合编码输入示意图;
图9是本申请一个示例性实施例提供的离线端训练模型示意图;
图10是本申请一个示例性实施例提供的在线解析示意图;
图11是本申请另一个示例性实施例提供的性能对比表;
图12是本申请一个示例性实施例提供的实体词识别装置的结构框图;
图13是本申请另一个示例性实施例提供的实体词识别装置的结构框图;
图14是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
智能交通系统(Intelligent Traffic System,ITS):又称智能运输系统(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。
自然语言处理(Nature Language Processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
查询请求(query):目的在于从数据库中寻找某一特定文件、网站或记录等,是搜索引擎或数据库发出的信息。
实体:是指客观存在并且相互之间存在区别的事物,本申请实施例中,实体是指在任务型对话系统中用于表达用户输入query中包含的重要信息。在一些实施例中,用户输入的query为用于查询的文本内容,在文本内容中包括需要进行属性识别的实体词。示意性的,如“来一首刘歌手唱的冰雨”这样的query中,query本身是表示用户想听歌曲的意图期望,同时还会设计【music.singer=刘歌手,music.song=冰雨】这样的实体集合用于表示这个query里面的具体重要信息,以便后续服务能够使用语义理解得到的结构化实体信息来对用户query作出反馈。
实体库:通常也成为实体字典,指多个实体词的集合,如:重庆、上海、无锡等作为实体库中的城市实体词集合,蜡笔小新、海绵宝宝等作为实体库中的卡通人物实体词集合,用于在对于文本内容进行实体词识别时作为一个实体词识别参考数据库。
BERT模型(Bidirectional Encoder Representations from Transformers):是一种一种语言模型,该模型通过联合所有层中的双向转换器来训练深度双向表示。BERT模型融合了众多自然语言处理模型的优点,在多项自然语言处理任务中均取得较优效果。相关技术中,BERT模型的模型输入向量为字向量(Token Embedding)、位置向量(PositionEmbedding)和句向量(Segment Embedding)的向量之和。其中,字向量为文字的向量化表示,位置向量用于表征字在文本中所处的位置,句向量用于表征句子在文本中的先后顺序。
在相关技术中,实体词识别常用的方式是采用CRF(Conditional Random Field,条件随机场)算法实现,其特点是可以配置丰富的特征模板,示意性的,请参考图1,其示出了本申请一个示例性实施例提供的相关技术示意图,如图1所示,将字符110输入基于CRF算法的实体识别模型100中,生成字符110对应的组合字符120(当最后一个字符110不存在与其进行组合的其他字符时使用#替代)、词性特征130(如动词v、名词n、数次q和量词m)、实体信息特征140(包括无实体词含义标记O和含有实体词含义B和I,B指示实体词起始位置,I指示位于实体词中间位置,也即非起始位置)和实体识别结果150(即实体词识别结果为歌曲名称“song”),其中,组合字符120、词性特征130和实体信息特征140是需要由人工构造特征工程来决定生成特征的种类(即上述特征仅为一个示意性举例,实际操作中可包括其他特征),通过对字符110、组合字符120、词性特征130和实体信息特征140进行实体词预测,最终获得实体识别结果150。本申请实施例中,通过将目标文本内容中的字符与实体库进行匹配,得到与字符具有关联关系的候选实体词,将字符与候选实体词进行混合编码,选择与目标文本内容的文本长度对应的作为候选编码特征对其进行实体词预测不仅提高了实体词识别的效率,而且通过将字符与候选实体词进行混合编码还能提高实体词识别的准确率。
结合上述名词简介,对本申请实施例的应用场景进行举例说明。
1.在搜索引擎中进行查询时,当用户通过使用搜索引擎或其他带有搜索功能的程序,以语音或者文本输入的形式输入目标文本后(目标文本为一句话或者一段文字),通过对目标文本内容进行实体词识别,得到目标文本内容中包含的实体词,并通过对实体词进行分类分析,得到与实体词对应的属性识别结果,根据实体词对应的属性识别结果,根据实体词对应的属性识别结果从已构建的知识图谱中确定对应的查询结果,并将查询结果反馈给用户。
示意性的,用户通过文本输入的方式输入语句“无锡XX药房地址”,则通过对语句内容进行实体词识别,得到实体词“无锡”和“XX药房”,通过对“无锡”和“XX药房”进行分类分析,得到“无锡”为地名属性,“XX药房”为药店名称属性,将“无锡”和“XX药房”作为查询关键词在知识图谱中进行查询,得到查询结果(即“无锡XX药房地址”所有的相关信息)“地点A”、“地点B”和“地点C”等,并将查询结果反馈并显示给用户。
其中,服务器对语句内容进行实体词识别需要对语句内容中的字符进行编码得到字符对应的候选编码特征,并对候选编码特征进行实体词预测,得到最终的实体词属性识别结果,该识别方式在后续实施例中进行详细介绍。
2.在应用软件中进行指令操作,用户期望对应用软件发布指令后,应用软件能够完成用户的发布任务并给予反馈,当用户以语音或者文本输入的形式输入目标文本后,通过对目标文本进行实体词识别,得到与实体词对应的属性识别结果后,根据识别结果完成指定任务,并将完成结果反馈给用户。
示意性的,用户通过文本输入的方式输入语句“来一首刘歌手唱的冰雨”,则通过对语句内容进行实体词识别,得到实体词“刘歌手”和“冰雨”,通过对“刘歌手”和“冰雨”进行分类分析,得到“刘歌手”为歌手名字,“冰雨”为歌曲名称,将“刘歌手”和“冰雨”作为任务关键词,搜索“冰雨”并将搜索结果反馈至用户终端进行播放。
3.在车载终端接收语音控制指令场景,车载终端上接收到来自用户的语音控制指令,对语音控制指令进行文本转换后,对文本内容进行实体词识别,得到实体词预测结果和实体词对应的属性识别结果,根据识别结果进行对应处理,如:当用户通过语音输入方式发布“开空调”指令,车载终端将其转换成文本“开空调”后对其进行实体词识别,识别结果为“空调”为实体词,并对车内空调设备进行开启操作。
值得注意的是,本申请实施例提供实体词识别方法,可以由终端实现,也可以由服务器实现,还可以由终端和服务器协同实现。
其中,当终端和服务器协同实现本申请实施例提供的方案时,终端和服务器可以通过有线或无线通信方式进行直接或间接连接,本申请实施例对此不加以限定。
示意性的,请参考图2,其示出了本申请一个示例性实施例提供的实施环境示意图,如图2所示,该实施环境中包括终端210、服务器220,终端210和服务器220之间通过通信网络230连接。
本申请实施例中,以查询场景进行实施环境的介绍,终端210中安装有具有搜索功能的应用程序。该提供搜索功能的应用程序可以实现为浏览器、视频播放程序、电子书阅读程序、即时通讯应用程序、工具类应用程序等,本申请实施例对此不加以限定。终端210通过文本输入的形式或者语音输入的形式输入目标文本后,终端210将目标文本发送至服务器220。
服务器220中存储有实体库221,实体库221中包括实体词集合,此外服务器220中还存有编码器222和解码器223,当服务器220接收到终端210发送的目标文本后,将目标文本中的字符与实体库221中的实体词进行匹配,得到与字符存在关联关系的实体词,将字符与实体词输入编码器222进行混合编码,得编码特征,选择与字符长度对应的候选编码特征,通过解码器223对候选编码特征进行解码预测,得到目标文本对应的实体词识别结果。
服务器220将实体词识别结果反馈至终端210,终端210对实体词识别结果进行展示,其中,展示方式包括语音展示或者界面展示中的至少一种。
其中,终端210包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备、智能语音交互设备、智能家电、车载终端等终端中的至少一种,服务器220可应用于在智慧交通、车载终端和物联网等领域中实现指令操作的场景。
值得注意的是,上述通信网络230可以实现为有线网络,也可以实现为无线网络,且通信网络230可以实现为局域网、城域网或广域网中的任意一种,本申请实施例对此不加以限定。
值得注意的是,上述服务器220可以实现为云端的云服务器,其中,云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器220还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
本申请实施例中,服务器220中提供的实体词识别方法及实现为应用服务层中的业务服务。
结合上述介绍内容,对本申请实施例中的实体词识别方法进行介绍。
本申请实施例中,将字符与实体库进行匹配得到与字符存有关联关系的候选实体词,将字符与候选实体词进行混合编码,对于目标文本内容的文本长度对应的候选编码特征进行实体词预测得到实体词识别结果。示意性的,请参考图3,其示出了本申请一个示例性实施例提供的实体词识别方法的整体过程示意图,如图3所示将目标文本内容310进行字符匹配320。字符匹配是指将目标文本内容310中的字符与实体库330进行匹配,从实体库330中匹配出与字符具有关联关系的候选实体词,实体库330为预先设定的实体词的集合。
将字符与候选实体词进行混合编码340,得到编码特征,选择与目标文本内容的文本长度对应的候选编码特征进行实体词预测350,最终得到实体词识别结果360。
结合上述名词简介以及应用场景,对本申请实施例提供的实体词识别方法进行说明,以由服务器执行以完成该方法为例进行说明,示意性的,请参考图4,其示出了本申请一个示例性实施例提供的实体词识别方法的流程图,该方法包括如下步骤。
步骤401,获取目标文本内容。
其中,目标文本内容为待进行实体词识别的内容,目标文本内容中包括按序排列的字符。
示意性的,目标文本是由字符、标点符号、图片等内容组成的一篇文本。在对目标文本内容进行实体词识别时,可以根据需要对目标文本进行预处理,如:去除标点符号、图片等信息干扰。
在一些实施例中,目标文本内容的获取方式包括如下方式中的至少一种:
1.目标文本内容为用户直接输入的语句,也即,目标文本内容为用户输入并希望得到反馈结果的文本内容,其中,输入的语句可以以文字形式输入或语音形式输入,通过语音形式输入的需将其转换为文本后对其进行后续处理;
2.目标文本内容为从搜集的用户日志数据中获取的文本内容(该历史日志数据为授权使用数据),也即,目标文本内容为用户日志数据中的一句话或者几句话;
3.目标文本内容为一些开放使用的平台上公开的文本训练数据。
值得注意的是,上述关于目标文本内容获取方式的说明仅为示意性举例,本申请实施例中对于目标文本的具体获取方式不做任何限定。
在一些实施例中,目标文本内容包括以下几种形式中的至少一种:
1.目标文本内容包括用于表达用户查询意愿的提问语句,如:“今天无锡的天气怎么样”、“北京天安门广场附近美食有什么”等,目标文本中的待识别实体词为用于确定用户查询意愿的实体词,如“今天无锡的天气怎么样”中,“无锡”与“天气”即为待识别的实体词;
2.目标文本内容包括单个实体词或者多个实体词集合,如:“北京天安门广场”、“故宫”、“红花”等,目标文本中待识别实体词即为该目标文本;
3.目标文本内容包括用户输入的带有的指令性的命令语句,如“来一首刘歌手的冰雨”、“打开A小程序”等,目标文本中待识别的实体词为用于确定能够完成用户命令的操作对应的实体词,如:在“打开A小程序”中,“A小程序”即为该目标文本内容中待识别的实体词。
值得注意的是,上述关于目标文本内容的说明仅为示意性举例,本申请实施例中对于目标文本的具体内容不做任何限定。
目标文本内容为一句话或者几句话或者几个实体词的集合,在此不做限定。
示意性的,目标文本中包含按序排列的字符,如:目标文本为“北京天安门广场”,其中,“北”、“京”、“天”、“安”、“门”、“广”和“场”为该目标文本中的字符,且它们为按序排列的字符,一个目标文本中包含一个字符或多个字符,目标本文中的字符为中文字符或者英文字符,在此不做限定。
步骤402,将目标文本内容中的字符与实体库进行匹配,得到实体库中与字符具有关联关系的候选实体词。
其中,实体库中包括预先设定的实体词的集合。
在一些实施例中,将目标文本内容中的字符输入实体匹配模型,实体匹配模型中包括实体库;通过实体匹配模型对字符和实体库进行匹配,得到与字符具有关联关系的候选实体词。
示意性的,实体库的获取方式包括如下方式中的至少一种:
1.实体库中包括人工输入的实体词集合,也即,人工输入实体词并进行存储,得到实体库;
2.实体库中包括从公开的、授权使用的实体数据平台中获取的实体词集合;
3.实体库中包括搜集的获得授权使用的用户的历史query数据,提取历史query数据中的实体词存储进实体库中。
值得注意的是,上述关于实体库获取方式的说明仅为示意性举例,本申请实施例中对于实体库的具体获取方式不做任何限定。
可选的,将字符输入实体识别模型中,实体识别模型将从实体库中选择与字符具有关联关系的候选实体词,其中关联关系存在以下形式中的至少一种:
1.关联关系为候选实体词为输入字符的组合(带有实体词意义的词),如:目标文本“北京鸟巢”中,“鸟”和“巢”为目标文本的其中两个字符,实体库中存在“鸟巢”实体词,基于“鸟巢”是由“鸟”和“巢”构成的实体词,则选择“鸟巢”作为“鸟”和“巢”对应的实体词;
2.关联关系为候选实体词为与输入字符具有近义关系的实体词,在实体库中建立实体词近义关系库如:目标文本为“上海X药店”,其中,“药”和“店”为目标文本内容中的字符,实体库中包括实体词“药店”,以及实体词近义关系库中“药店”与“药房”为存在近义关系的实体词,因此选择“药房”作为候选实体词。
值得注意的是,上述关于实体库获取方式的说明仅为示意性举例,本申请实施例中对于实体库的具体获取方式不做任何限定。
步骤403,将字符与候选实体词进行混合编码,得到至少两个编码特征。
在一些实施例中,混合编码的形式包括如下方式中的至少一种:
1.将字符与候选实体词输入BERT模型中的Transformer编码器进行编码,得到至少两个编码特征;
2.将字符与候选实体词输入长短期记忆网络(Long Short Term Memory,LSTM)模型中进行编码,得到至少两个编码特征;
3.将字符与候选实体词输入门控循环网络(Gate Recurrent Unit,GRU)模型中进行编码,得到至少两个编码特征。
值得注意的是,上述关于混合编码的方式仅为示意性的举例,本申请实施例对此不做限定。
示意性的,得到的至少两个编码特征中包括与字符长度对应的编码特征和与候选实体词长度对应的编码特征,在编码特征中包括字符信息和/或候选实体词信息。
步骤404,从至少两个编码特征中确定出与目标文本内容的文本长度对应的候选编码特征。
示意性的,目标文本内容的文本长度为目标文本除去标点符号、图片等干扰元素(即只包含字符的文本内容)对应的文本长度,因此在确定目标文本内容的文本长度时对目标文本进行预处理,包括对除字符以外的内容进行删除,或者对目标文本进行分类,选择类别为字符的内容,从而确定目标文本内容的文本长度,在此不做限定。
可选的,在选取候选编码特征的过程中,在编码特征中从第一个编码特征开始逐个筛选,选择与字符长度对应的编码特征作为候选编码特征,且候选编码特征最终的组合长度与目标文本内容的文本长度对应,如:目标文本内容中包括八个字符,与八个字符具有关联关系的候选实体词有三个,将八个字符与三个候选实体词进行混合编码,得到的编码特征中包括八个与字符长度对应的编码特征以及与三个候选实体词长度对应的编码特征(编码特征中包括字符信息和/或实体词信息),从第一个编码特征开始逐个筛选,选取与字符长度对应的编码特征(且包含候选实体词信息)作为候选编码特征,最终选取八个候选编码特征,该八个候选编码特征对应的字符数量与目标文本内容的文本长度(即八个字符长度)对应。
步骤405,对候选编码特征进行实体词预测,得到目标文本内容的实体词识别结果。
可选的,实体词预测包括对候选编码特征进行词性判断(即,判断每个候选编码特征对应的字符的词性),或者,对候选编码特征进行边界判断(即,判断每个候选编码特征对应的字符在其所在实体词中的位置,如起始位置或者中间位置或者不存在实体词),在此不做限定。
在一些实施例中,对候选编码特征进行实体词预测包括如下方式中的至少一种:
1.对候选编码特征进行BIO标签标注,对其进行实体词边界信息分析,也即,B为Begin(起始词),I为Inter(中间词),O为Other(其他),如:目标文本“来一首忘情水”中,“来”、“一”和“首”都标为O,“忘”标为B,“情”和“水”为I,即,“来一首”中不包括实体词,“忘情水”中“忘”代表该实体词的起始词,“情”和“水”为中间词,实体词为“忘情水”;
2.对候选编码特征进行词性预测,并标注词性标签,如:名词为n,动词为v,形容词为a,词性未知的标为0,最终得到目标本文内容中字符对应的词性识别结果,如:“来一首忘情水”中,实体词“忘情水”为名词,最终得到“忘情水”对应的属性为歌曲名称。
值得注意的是,上述关于选取候选编码特征的说明仅为示意性举例,本申请实施例中对于选择候选编码特征的具体方式不做任何限定。
基于上述的实体词预测,在获取实体词预测结果时先获取识别结果对应的实体词,再获取实体词对应的词性识别结果,或者,同时获取实体词识别结果和实体词对应的词性识别结果,在此不做任何限定。
综上所述,本申请实施例提供的实体词识别方法,目标文本内容中字符对应的候选编码特征不依靠相关技术中的人工提取特征生成,而是通过构建实体库,将目标文本内容按序排列的字符与实体库进行匹配,得到与字符具有关联关系的候选实体词,将字符与候选实体词进行混合编码,得到编码特征,选取与目标文本内容的文本长度对应的候选编码特征对其进行实体词预测,得到实体词识别结果,提高了实体词的识别准确率,也间接提高了实体词识别的效率。
在一些实施例中,实体匹配模型中包括Trie树结构,其中Trie树结构为用于对所述实体库进行实体词检索的字典树结构,示意性的,请参考图5,其示出了本申请一个示例性实施例提供的实体词识别方法的流程图,如图5所示,该方法包括如下步骤。
步骤501,获取目标文本内容。
其中,目标文本内容为待进行实体词识别的内容,目标文本内容中包括按序排列的字符。
步骤501中关于目标文本的内容已在上述步骤401中进行具体说明,这里不再赘述。
步骤502,使用Trie树结构对字符和实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词。
可选的,实体库中包括人工建立的实体词集合,或者,为将一些公开授权使用的实体词数据进行集合得到的,在此不做限定,示意性的,请参考图6,其示出了本申请一个实施例提供的实体库界面示意图,如图6所示,图中包括实体库分类名词,也即,“sys.video.cartoon”意为动画视频实体库610(即,该实体库中的实体词都为与动画视频名称相关的实体词),在该动画视频实体库中,包含名为“小猪琪琪的安全教育”实体词名称620以及该实体词名称620对应的实体词别名630“琪琪安全教育”,实体词别名630用于当输入字符与实体库中的实体词名称620不匹配的情况时,若存在实体词别名630与输入的字符匹配,则将实体词别名630作为候选实体词。
在一些实施例中,使用Trie树结构对字符和实体库中的实体词进行关联度分析,得到字符与实体词之间的关联度分析结果;基于关联度分析结果确定实体库中符合关联条件的候选实体词。
示意性的,使用Trie树结构对字符和实体库中的实体词进行关联度分析时,输入字符后,实体匹配模型对每个字符进行状态及位置分析,基于每个字符的状态及其位于目标文本内容的位置确定与该字符存在关联关系的实体词作为候选实体词,可选的,关联条件包括如下方式中的至少一种:
1.将实体库中包含输入字符的实体词作为候选实体词,也即,只要实体词中包含输入字符,即为候选实体词;
2.设置关联阈值,当实体库中的实体词包含输入字符的个数达到或超过关联阈值,将该实体词作为候选实体词;
3.将输入字符进行自由组合,将具有实体词意义的组合字符且该组合字符存在于实体库中,将该实体词作为候选实体词,即,该实体词为输入字符的具有实体词意义的组合字符结果。
值得注意的是,上述关于关联条件的说明仅为示意性举例,本申请实施例中对于关联条件不做任何限定。
本实施例中采用Trie树结构中的双数组Trie树结构来确定实体库中的候选实体词,双数组Trie树结构中包括base数组和check数组,base数组用于确定输入字符的位置,check数组在base数组的基础上判断是否存在实体库中的实体词,如果存在,将该实体词作为输入字符对应的候选实体词。如目标文本内容为“大学生都是华人”,使用对该目标文本内容中的每个字符“大”、“学”、“生”、“都”、“是”、“华”和“人”进行位置判断,即“大”为起始字符,“人”为结束字符,基于位置判断结果,使用check数组判断字符是否存在在双数组Tire树结构中(即实体库中每个实体词中的字符都对应为双数组Trie树结构中的一个节点,且标有指定序列号)如果存在字符为节点,则确定该字符对应的序列号,并基于该序列号确定双数组Tire树结构中的实体词,作为候选实体词。
步骤503,将字符与候选实体词进行混合编码,得到至少两个编码特征。
步骤503中关于混合编码内容在上述步骤403中进行详细说明,这里不再赘述。
步骤504,从至少两个编码特征中确定出与目标文本内容的文本长度对应的候选编码特征。
步骤504中关于候选编码特征已在上述步骤404中进行详细说明,这里不再赘述。
步骤505,对候选编码特征进行实体词预测,得到每个字符与实体词的对应关系。
其中,对应关系中包括相关关系和无关关系,相关关系用于指示字符用于组成实体词,无关关系用于指示字符为目标文本内容中除实体词以外的字符。
本实施例中,对候选编码特征进行实体词预测,并使用BIO标注方式确定每个字符与实体词的对应关系,其中,当字符与实体词无关时(即该字符不存在任何实体词信息),将该字符标注为O,若字符与实体词具有相关关系时,使用B和I对其进行标注。
步骤506,基于字符与实体词的对应关系确定目标文本内容的实体词识别结果。
在一些实施例中,相关关系中包括起始字符和内容字符,可选的,基于起始字符以及与起始字符衔接的至少一个内容字符确定目标文本内容中的实体词作为第一实体词识别结果。
若字符与实体词具有相关关系时,即该字符为组成实体词中的字符,判断该字符位于实体词中的位置,若字符位于起始位置,即为起始字符,则标注为B,若位于该实体词中其他位置,即为内容字符,则标注为I。对于组成同一个实体词的字符中只存在一个标签标注为B的字符,至少包括一个标签标注为I的字符,将起始字符和至少一个内容字符按序衔接完成得到的实体词作为第一实体词识别结果。示意性的,起始字符和内容字符用于确定字符位于实体词中的具体位置,从而确定实体词。
综上所述,本申请实施例提供的实体词识别方法,目标文本内容中字符对应的候选编码特征不依靠相关技术中的人工提取特征生成,而是通过构建实体库,将目标文本内容按序排列的字符与实体库进行匹配,得到与字符具有关联关系的候选实体词,将字符与候选实体词进行混合编码,得到编码特征,选取与目标文本内容的文本长度对应的候选编码特征对其进行实体词预测,得到实体词识别结果,提高了实体词的识别准确率,也间接提高了实体词识别的效率。
本实施例中,使用Trie树结构确定与输入字符符合关联条件的候选实体词,与现有技术相比,自动捕捉候选实体词能够提高实体匹配模型的匹配效率,且通过对字符与实体词之间的相关关系和无关关系进行分析对字符进行标注,能够提高实体词识别的效率及准确率。
在一些实施例中,在将字符和候选实体词输入编码器中进行混合编码之前,还会生成组合字符、字符对应的第一位置标签和候选实体词对应的第二位置标签,示意性的,请参考图7,其示出了本申请一个示例性实施例提供的实体词识别方法的流程图,如图7所示,该方法包括如下步骤。
步骤701,获取目标文本内容。
其中,目标文本内容为待进行实体词识别的内容,目标文本内容中包括按序排列的字符。
步骤701中关于目标文本内容已在上述步骤401中进行具体说明,这里不再赘述。
步骤702,将目标文本内容中的字符与实体库进行匹配,得到实体库中与字符具有关联关系的候选实体词。
其中,实体库中包括预先设定的实体词的集合。
步骤702中关于字符和实体库的内容已在上述步骤402中进行具体说明,这里不再赘述。
步骤703,将至少两个相邻的字符进行组合,得到组合字符。
在一些实施例中,如:目标文本为“北京水立方”,其中,字符为“北”、“京”、“水”、“立”和“方”,在将字符和候选实体词进行混合编码之前,将至少相邻两个字符进行组合,得到组合字符,如:“北京”、“京水”、“水立”和“立方”。得到的组合字符中包括存在实体词意义的组合字符,或者,包括不存在实体词意义的组合字符,在此不做任何限定。
步骤704,将字符、组合字符和候选实体词进行混合编码,得到至少两个编码特征。
在一些实施例中,确定字符在目标文本内容中的第一位置标签,第一位置标签用于指示字符在目标文本内容中的位置;确定候选实体词在目标文本内容中的第二位置标签,第二位置标签用于指示候选实体词对应目标文本内容中的序列起始位置和序列终止位置;对字符、组合字符和第一位置标签的第一关联序列,以及候选实体词和第二位置标签的第二关联序列进行混合编码,得到至少两个编码特征。
示意性的,将字符与候选实体词输入编码器进行编码时,会同时生成组合字符、字符在目标文本内容中的第一位置标签、候选实体词在目标文本内容中的第二位置标签,其中,第一位置标签为指示字符在目标文本内容中的位置,如目标文本为“北京水立方”时,字符“北”位于目标文本“北京水立方”中第一个,则确定其第一位置标签为“1”,又如字符“立”位于目标文本“北京水立方”的第四个,因此确定字符“立”的第一位置标签为“4”;第二位置标签中包括候选实体词在目标文本中的起始位置(start)和终止位置(end),如:目标文本为“北京水立方”,“北京”和“水立方”为目标文本“北京水立方”的其中两个候选实体词,“北京”从“北京水立方”中第一个字符开始,第二个字符结束(即“北”位于目标文本中的第一位,“京”位于目标文本中的第二位),也即,“北京”的第二位置标签分为start标签“1”和end标签“2”。
示意性的,请参考图8,其示出了本申请一个示例性实施例提供的混合编码输入示意图,如图8所示,当前显示为混合编码输入800界面,当目标内容文本为“北京天安门广场”时,获取“北京天安门广场”中按序排列的字符810,以及经过实体库匹配与字符810符合关联度条件的候选实体词820,同时会生成字符810对应的组合字符830(当最后一个字符不存在与其进行组合的字符时,用#替代字符与其组成组合字符),字符810对应的第一位置标签840,其中,由于字符为单个字,其起始位置和终止位置为同一个位置,因此将其标注start标签和end标签时,两者为同一个标签,以及候选实体词820对应的第二位置标签850,第二位置标签中包括start标签和end标签,作为编码器的输入(值得注意的是,当输入编码器时,候选实体词820也会生成对应组合字符830,由于候选实体词820是字符810具有实体词意义的组合,因此候选实体词820对应的组合字符830为其本身)。
在一些实施例中,确定第一关联序列对应的第一序列向量以及确定第二关联序列对应的第二序列向量;将第一序列向量与第二序列向量进行混合编码,得到至少两个编码特征。
可选的,将字符、组合字符及第一位置标签对应的第一关联序列和候选实体词及第二位置标签对应的第二关联序列输入BERT模型中的Transformer编码器时,Transformer编码器通过查询字向量表将第一关联序列和第二关联序列转换为一维向量,得到对应的第一序列向量和第二序列向量。基于自注意力机制将第一序列向量与第二序列向量进行向量融合,得到向量融合结果。其中,若自注意力机制将字符和候选实体词进行混合编码时会存在语序不当的问题,因此将组合字符与第一位置标签与字符生成第一关联序列,并进行编码得到第一序列向量,第一序列向量为增强了字序信息和位置信息的字符向量,同理可得第二序列向量为增强了字序信息和位置信息的候选实体词向量。
在完成向量转换和融合后,Transformer编码器会对向量融合结果进行编码,即,对向量融合结果进行编码,得到至少两个编码特征。示意性的,在进行编码的过程中,对向量融合结果进行加权和或进行乘积或进行加权平均求和,得到至少两个编码特征,在此不做限定。
步骤705,从至少两个编码特征中确定出与目标文本内容的文本长度对应的候选编码特征。
步骤705中关于候选编码特征已在上述步骤404中进行详细说明,这里不再赘述。
步骤706,对候选编码特征进行实体词预测,得到目标文本内容的实体词识别结果。
在一些实施例中,实体词识别结果不仅包括第一实体词识别结果,还包括第二实体词识别结果,可选的,对目标文本内容中的实体词进行分类分析,得到实体词的属性识别结果作为第二实体词识别结果,属性识别结果用于指示实体词对应的实体类型;输出目标文本内容中的实体词以及与实体词对应的属性识别结果。
可选的,如:目标文本为“上海XX药店”,对经过混合编码后得到的且与字符长度对应的候选编码特征进行实体词预测时,经过实体词预测能够得到目标文本“上海XX药店”的第一实体词识别结果为“上海”和“XX药店”,对“上海”和“XX药店”进行分类分析,得到分析结果“上海”为地名,“XX药店”为商铺名,将识别结果作为第二实体词识别结果,其中,分类分析的方法包括如下方式中的至少一种:
1.将得到的第一实体词识别结果(即识别的实体词)输入实体库,找到与其可作为近义词的实体库中的实体词,确定被选中的实体库中的实体词所对应的的属性,从而确定识别的实体词对应的属性,即第二实体词识别结果;
2.建立分类模型,分类模型中包括对实体库中的各实体词进行属性分类,将第一实体词识别结果通过分类模型进行分类分析,找到第一实体词识别结果对应的属性,作为其第二实体词识别结果。
值得注意的是,上述对分类分析的方式仅为示意性举例,本申请实施例中对分类分析的具体方式不做任何限定。
综上所述,本申请实施例提供的实体词识别方法,目标文本内容中字符对应的候选编码特征不依靠相关技术中的人工提取特征生成,而是通过构建实体库,将目标文本内容按序排列的字符与实体库进行匹配,得到与字符具有关联关系的候选实体词,将字符与候选实体词进行混合编码,得到编码特征,选取与目标文本内容的文本长度对应的候选编码特征对其进行实体词预测,得到实体词识别结果,提高了实体词的识别准确率,也间接提高了实体词识别的效率。
本实施例中,在获取字符和字符对应的候选实体词时,会生成字符对应的组合字符以及字符对应的第一位置标签和候选实体词对应的第二位置标签,组合字符、第一位置标签和第二位置标签对确定字符位于目标文本内容中的序列位置有着正向作用,从而间接提高了实体词识别的准确率及识别精度。
在一些实施例中,本方案首先在离线端训练实体词识别模型,在通过线上解析时使用Trie树结构完成候选实体词匹配,最终得到实体词识别结果,在离线端,示意性的,请参考图9,其示出了本申请一个示例性实施例提供的离线端训练模型示意图,如9所示,将字符910与实体库匹配得到与字符910具有关联关系的候选实体词920,同时生成字符910和候选实体词920对应的组合字符930(候选实体词920对应的组合字符930为其本身)、字符910对应的第一位置标签940(包括start标签和end标签)以及候选实体词920对应的第二位置标签950(包括start标签和end标签),将字符910、候选实体词920、组合字符930、第一位置标签940和第二位置标签950输入Transformer编码器960(这里只用到BERT模型中一层Transformer编码器)进行混合编码,选择与字符910长度对应的候选编码特征输入CRF解码器970进行解码,最终得到字符910对应的BIO标签980。
示意性的,线上解析请参考图10,其示出了本申请一个示例性实施例提供的在线解析示意图,如图10所示,使用Trie树结构对目标文本1010中按序排列的字符1020与实体库1030进行匹配,得到与字符1020具有关联关系的候选实体词1040,同时生成组合字符1050、字符1020对应的第一位置标签1060和候选实体词对应的第二位置标签1070,最终将字符1020、候选实体词1040、组合字符1050、第一位置标签1060和第二位置标签1070输入编码器进行混合编码,选取与字符1020长度对应的候选编码特征输入解码器进行解码,并对其进行实体词预测,得到最终第一实体词识别结果1080和第二实体词识别结果1090。
本实施例中,离线端实体库选取授权平台搜集的实体词,在线解析的实体库选择得到授权使用的用户数据,保证数据分布符合真实用户分布,经过专业标注人员对实体词进行标注,本申请中的方案与现有技术相比,性能上取得明显提高,示意性的,请参考图11,其示出了本申请一个示例性实施例提供的性能对比表,如图11所示,相关技术为CRF模型1110,在不同实体集合1140(即不同属性类别的实体库,如电影视频实体库sys.video.film等)的识别结果中,其综合评价指标(F1 measure,F1值)比本方案1140的F1值低,离线训练耗时1140中本方案1140耗时为2.5小时,CRF模型1110耗时3小时,本方案1140在离线训练耗时1140较少。通过对比表可以直观看出,本方案与CRF模型相比,保证训练速度提高的同时能够提高实体词识别的准确率。
综上所述,本申请实施例提供的实体词识别方法,目标文本内容中字符对应的候选编码特征不依靠相关技术中的人工提取特征生成,而是通过构建实体库,将目标文本内容按序排列的字符与实体库进行匹配,得到与字符具有关联关系的候选实体词,将字符与候选实体词进行混合编码,得到编码特征,选取与目标文本内容的文本长度对应的候选编码特征对其进行实体词预测,得到实体词识别结果,提高了实体词的识别准确率,也间接提高了实体词识别的效率。
本申请在离线端使用自注意力机制,将目标文本中按序排列的字符与候选实体词进行混合编码,同时考虑组合字符、第一位置标签和第二位置标签,将所有信息编码在一起,最终选择与字符长度对应的的候选编码特征做CRF解码得到每个字符对应的实体词识别结果。相较于现有技术,本申请提供的方案使用深度学习技术,取得了更好的效果。同时在线解析时,使用双数组Trie树结构对字符进行关联度分析,在实体库中找到命中的候选实体词,完成模型输入的准备,提升实体词识别性能及识别速度及准确率。
在一些实施例中,也可使用Lex-BERT模型进行实体词识别,提高实体词匹配的速度及准确率,同时在离线端训练的时候可扩大训练样本,挖掘用户数据中与实体词相关的信息,优化训练模型。
图12是本申请一个示例性实施例提供的实体词识别装置的结构框图,如图12所示,该装置包括:
获取模块1220,用于获取目标文本内容,所述目标文本内容为待进行实体词识别的内容,所述目标文本内容中包括按序排列的字符;
匹配模块1230,用于将所述目标文本内容中的字符与实体库进行匹配,得到所述实体库中与所述字符具有关联关系的候选实体词,其中,所述实体库中包括预先设定的实体词的集合;
编码模块1240,用于将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征;
确定模块1250,用于从所述至少两个编码特征中确定出与所述目标文本内容的文本长度对应的候选编码特征;
预测模块1260,用于对所述候选编码特征进行实体词预测,得到所述目标文本内容的实体词识别结果。
在一个可选的实施例中,所述匹配模块1230,还用于将所述目标文本内容中的字符输入实体匹配模型,所述实体匹配模型中包括所述实体库;通过所述实体匹配模型对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词。
在一个可选的实施例中,所述实体匹配模型中包括Trie树结构,所述Trie树结构为用于对所述实体库进行实体词检索的字典树结构;
所述匹配模块1230,还用于使用Trie树结构对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词。
在一个可选的实施例中,所述匹配模块1230,还用于使用Trie树结构对所述字符和所述实体库中的实体词进行关联度分析,得到所述字符与所述实体词之间的关联度分析结果;基于所述关联度分析结果确定所述实体库中符合关联条件的所述候选实体词。
在一个可选的实施例中,所述装置还包括:
组合模块1210,用于将至少两个相邻的字符进行组合,得到组合字符;
所述编码模块1240,还用于将所述字符、所述组合字符和所述候选实体词进行混合编码,得到至少两个编码特征。
在一个可选的实施例中,所述编码模块1240,还用于确定所述字符在所述目标文本内容中的第一位置标签,所述第一位置标签用于指示所述字符在所述目标文本内容中的位置;确定所述候选实体词在所述目标文本内容中的第二位置标签,所述第二位置标签用于指示所述候选实体词对应所述目标文本内容中的序列起始位置和序列终止位置;对所述字符、所述组合字符和所述第一位置标签的第一关联序列,以及所述候选实体词和所述第二位置标签的第二关联序列进行混合编码,得到至少两个编码特征。
在一个可选的实施例中,所述编码模块1240,还用于确定所述第一关联序列对应的第一序列向量,以及确定所述第二关联序列对应的第二序列向量;将所述第一序列向量和所述第二序列向量进行混合编码,得到至少两个编码特征。
在一个可选的实施例中,所述编码模块1240,还用于基于自注意力机制将所述第一序列向量与所述第二序列向量进行向量融合,得到向量融合结果;对所述向量融合结果进行编码,得到至少两个编码特征。
在一个可选的实施例中,所述预测模块1260,还用于对所述候选编码特征进行实体词预测,得到每个字符与实体词的对应关系,所述对应关系中包括相关关系和无关关系,所述相关关系用于指示所述字符用于组成所述实体词,所述无关关系用于指示所述字符为所述目标文本内容中除实体词以外的字符;基于所述字符与所述实体词的对应关系确定所述目标文本内容的实体词识别结果。
在一个可选的实施例中,所述相关关系中包括起始字符和内容字符;
所述预测模块1260,包括:
确定单元1261,用于基于所述起始字符以及与所述起始字符衔接的至少一个内容字符确定所述目标文本内容中的实体词作为第一实体词识别结果。
在一个可选的实施例中,所述预测模块1260,还包括:
分析单元1262,用于对所述目标文本内容中的实体词进行分类分析,得到所述实体词的属性识别结果作为第二实体词识别结果,所述属性识别结果用于指示所述实体词对应的实体类型;
输出单元1263,用于输出所述目标文本内容中的实体词以及与所述实体词对应的属性识别结果。
综上所述,本申请实施例提供的实体词识别装置,目标文本内容中字符对应的候选编码特征不依靠相关技术中的人工提取特征生成,而是通过构建实体库,将目标文本内容按序排列的字符与实体库进行匹配,得到与字符具有关联关系的候选实体词,将字符与候选实体词进行混合编码,得到编码特征,选取与目标文本内容的文本长度对应的候选编码特征对其进行实体词预测,得到实体词识别结果,提高了实体词的识别准确率,也间接提高了实体词识别的效率。
需要说明的是:上述实施例提供的实体词识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的实体词识别装置与实体词识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图14示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲:
服务器1400包括中央处理单元(Central Processing Unit,CPU)1401、包括随机存取存储器(Random Access Memory,RAM)1402和只读存储器(Read Only Memory,ROM)1403的系统存储器1404,以及连接系统存储器1404和中央处理单元1401的系统总线1405。服务器1400还包括用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1406。
大容量存储设备1406通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1406及其相关联的计算机可读介质为服务器1400提供非易失性存储。也就是说,大容量存储设备1406可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1406可以统称为存储器。
根据本申请的各种实施例,服务器1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412,或者说,也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的实体词识别方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的实体词识别方法。
本申请的实施例还提供了一种计算机程序产品,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的实体词识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种实体词识别方法,其特征在于,所述方法包括:
获取目标文本内容,所述目标文本内容为待进行实体词识别的内容,所述目标文本内容中包括按序排列的字符;
将所述目标文本内容中的字符与实体库进行匹配,得到所述实体库中与所述字符具有关联关系的候选实体词,其中,所述实体库中包括预先设定的实体词的集合;
将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征;
从所述至少两个编码特征中确定出与所述目标文本内容的文本长度对应的候选编码特征;
对所述候选编码特征进行实体词预测,得到所述目标文本内容的实体词识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本内容中的字符与实体库进行匹配,得到所述实体库中与所述字符具有关联关系的候选实体词,包括:
将所述目标文本内容中的字符输入实体匹配模型,所述实体匹配模型中包括所述实体库;
通过所述实体匹配模型对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词。
3.根据权利要求2所述的方法,其特征在于,所述实体匹配模型中包括Trie树结构,所述Trie树结构为用于对所述实体库进行实体词检索的字典树结构;
所述通过所述实体匹配模型对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词,包括:
使用Trie树结构对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词。
4.根据权利要求3所述的方法,其特征在于,所述使用Trie树结构对所述字符和所述实体库进行匹配,得到与所述字符具有关联关系的所述候选实体词,包括:
使用Trie树结构对所述字符和所述实体库中的实体词进行关联度分析,得到所述字符与所述实体词之间的关联度分析结果;
基于所述关联度分析结果确定所述实体库中符合关联条件的所述候选实体词。
5.根据权利要求1至4任一所述的方法,其特征在于,所述将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征之前,还包括:
将至少两个相邻的字符进行组合,得到组合字符;
所述将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征,包括:
将所述字符、所述组合字符和所述候选实体词进行混合编码,得到至少两个编码特征。
6.根据权利要求5所述的方法,其特征在于,所述将所述字符、所述组合字符和所述候选实体词进行混合编码,得到至少两个编码特征,包括:
确定所述字符在所述目标文本内容中的第一位置标签,所述第一位置标签用于指示所述字符在所述目标文本内容中的位置;
确定所述候选实体词在所述目标文本内容中的第二位置标签,所述第二位置标签用于指示所述候选实体词对应所述目标文本内容中的序列起始位置和序列终止位置;
对所述字符、所述组合字符和所述第一位置标签的第一关联序列,以及所述候选实体词和所述第二位置标签的第二关联序列进行混合编码,得到至少两个编码特征。
7.根据权利要求6所述的方法,其特征在于,所述对所述字符、所述组合字符和所述第一位置标签的第一关联序列,以及所述候选实体词和所述第二位置标签的第二关联序列进行混合编码,得到至少两个编码特征,包括:
确定所述第一关联序列对应的第一序列向量,以及确定所述第二关联序列对应的第二序列向量;
将所述第一序列向量和所述第二序列向量进行混合编码,得到至少两个编码特征。
8.根据权利要求7所述的方法,其特征在于,所述将所述第一序列向量和所述第二序列向量进行混合编码,得到至少两个编码特征,包括:
基于自注意力机制将所述第一序列向量与所述第二序列向量进行向量融合,得到向量融合结果;
对所述向量融合结果进行编码,得到至少两个编码特征。
9.根据权利要求1至4任一所述的方法,其特征在于,所述对所述候选编码特征进行实体词预测,得到所述目标文本内容的实体词识别结果,包括:
对所述候选编码特征进行实体词预测,得到每个字符与实体词的对应关系,所述对应关系中包括相关关系和无关关系,所述相关关系用于指示所述字符用于组成所述实体词,所述无关关系用于指示所述字符为所述目标文本内容中除实体词以外的字符;
基于所述字符与所述实体词的对应关系确定所述目标文本内容的实体词识别结果。
10.根据权利要求9所述的方法,其特征在于,所述相关关系中包括起始字符和内容字符;
所述基于所述字符与所述实体词的对应关系确定所述目标文本内容的实体词识别结果,包括:
基于所述起始字符以及与所述起始字符衔接的至少一个内容字符确定所述目标文本内容中的实体词作为第一实体词识别结果。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
对所述目标文本内容中的实体词进行分类分析,得到所述实体词的属性识别结果作为第二实体词识别结果,所述属性识别结果用于指示所述实体词对应的实体类型;
输出所述目标文本内容中的实体词以及与所述实体词对应的属性识别结果。
12.一种实体词识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标文本内容,所述目标文本内容为待进行实体词识别的内容,所述目标文本内容中包括按序排列的字符;
匹配模块,用于将所述目标文本内容中的字符与实体库进行匹配,得到所述实体库中与所述字符具有关联关系的候选实体词,其中,所述实体库中包括预先设定的实体词的集合;
编码模块,用于将所述字符与所述候选实体词进行混合编码,得到至少两个编码特征;
确定模块,用于从所述至少两个编码特征中确定出与所述目标文本内容的文本长度对应的候选编码特征;
预测模块,用于对所述候选编码特征进行实体词预测,得到所述目标文本内容的实体词识别结果。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的实体词识别方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的实体词识别方法。
15.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或者指令被处理器执行时实现如权利要求1至11任一所述的实体词识别方法。
CN202111218556.4A 2021-10-20 2021-10-20 实体词识别方法、装置、设备、存储介质及程序产品 Pending CN113656561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111218556.4A CN113656561A (zh) 2021-10-20 2021-10-20 实体词识别方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111218556.4A CN113656561A (zh) 2021-10-20 2021-10-20 实体词识别方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN113656561A true CN113656561A (zh) 2021-11-16

Family

ID=78484291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111218556.4A Pending CN113656561A (zh) 2021-10-20 2021-10-20 实体词识别方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN113656561A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885702A (zh) * 2019-01-17 2019-06-14 哈尔滨工业大学(深圳) 自然语言处理中的序列标注方法、装置、设备及存储介质
CN114330353A (zh) * 2022-01-06 2022-04-12 腾讯科技(深圳)有限公司 虚拟场景的实体识别方法、装置、设备、介质及程序产品
EP4266196A1 (en) * 2022-04-19 2023-10-25 Sap Se Entity linking and filtering using efficient search tree and machine learning representations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2100260A1 (en) * 2006-12-01 2009-09-16 Google, Inc. Identifying images using face recognition
CN112632224A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 基于案例知识图谱的案件推荐方法、装置和电子设备
CN112800775A (zh) * 2021-01-28 2021-05-14 科大讯飞股份有限公司 语义理解方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2100260A1 (en) * 2006-12-01 2009-09-16 Google, Inc. Identifying images using face recognition
CN112632224A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 基于案例知识图谱的案件推荐方法、装置和电子设备
CN112800775A (zh) * 2021-01-28 2021-05-14 科大讯飞股份有限公司 语义理解方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885702A (zh) * 2019-01-17 2019-06-14 哈尔滨工业大学(深圳) 自然语言处理中的序列标注方法、装置、设备及存储介质
CN114330353A (zh) * 2022-01-06 2022-04-12 腾讯科技(深圳)有限公司 虚拟场景的实体识别方法、装置、设备、介质及程序产品
CN114330353B (zh) * 2022-01-06 2023-06-13 腾讯科技(深圳)有限公司 虚拟场景的实体识别方法、装置、设备、介质及程序产品
EP4266196A1 (en) * 2022-04-19 2023-10-25 Sap Se Entity linking and filtering using efficient search tree and machine learning representations

Similar Documents

Publication Publication Date Title
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN113656561A (zh) 实体词识别方法、装置、设备、存储介质及程序产品
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN111310436A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN113988071A (zh) 一种基于金融知识图谱的智能对话方法及装置、电子设备
CN113392265A (zh) 多媒体处理方法、装置及设备
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN111259115B (zh) 内容真实性检测模型的训练方法、装置和计算设备
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN114297351A (zh) 语句问答方法、装置、设备、存储介质及计算机程序产品
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN115269961A (zh) 内容搜索方法以及相关设备
CN112287687B (zh) 基于案件属性感知的案件倾向性抽取式摘要方法
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
CN109933788B (zh) 类型确定方法、装置、设备和介质
CN113763934A (zh) 音频识别模型的训练方法、装置和存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40056140

Country of ref document: HK