CN112989058B - 信息分类方法、试题分类方法、设备、服务器和存储介质 - Google Patents

信息分类方法、试题分类方法、设备、服务器和存储介质 Download PDF

Info

Publication number
CN112989058B
CN112989058B CN202110503793.9A CN202110503793A CN112989058B CN 112989058 B CN112989058 B CN 112989058B CN 202110503793 A CN202110503793 A CN 202110503793A CN 112989058 B CN112989058 B CN 112989058B
Authority
CN
China
Prior art keywords
formula
text
character
information
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110503793.9A
Other languages
English (en)
Other versions
CN112989058A (zh
Inventor
卢鑫鑫
夏志群
蔡晓凤
刘萌
叶礼伟
孙朝旭
吴嫒博
孙康明
滕达
覃伟枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110503793.9A priority Critical patent/CN112989058B/zh
Publication of CN112989058A publication Critical patent/CN112989058A/zh
Application granted granted Critical
Publication of CN112989058B publication Critical patent/CN112989058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种信息分类方法、试题分类方法、设备、服务器和存储介质;本发明实施例在获取待分类信息后,一方面,对该待分类信息中的文本内容进行分词处理,得到文本词集合,并对文本词集合中的文本词进行特征提取,得到待分类信息的文本特征,另一方面,对该分类信息中的公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合,然后,根据待分类信息的文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征,最后,基于内容特征和公式特征对待分类信息进行分类;该方案可以提升信息分类的准确性。

Description

信息分类方法、试题分类方法、设备、服务器和存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种信息分类方法、试题分类方法、设备、服务器和存储介质。
背景技术
近年来,随着互联网技术的飞速发展,信息也变得越来越多样化,从而形成了海量的信息。面对海量的信息,往往需要对信息进行分类。现有的信息分类方法通常是通过计算信息中文本内容的文本相似度来对信息进行分类。
在对现有技术的研究和实践过程中,本发明的发明人发现计算信息的文本相似度仅仅只考虑了文本内容,当信息中包含多种类型的内容时,文本相似度并不能准确反映信息之间的相似度,因此,导致信息分类的准确性不足。
发明内容
本发明实施例提供一种信息分类方法、试题分类方法、设备、服务器和存储介质,可以提高信息分类的准确性。
一种信息分类方法,包括:
获取待分类信息,所述待分类信息包括文本内容和公式内容;
对所述文本内容进行特征提取,得到所述待分类信息的文本特征;
对所述公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合;
根据所述文本内容,对所述公式子串集合进行特征提取,得到所述待分类信息的公式特征;
基于所述文本特征和公式特征,对所述待分类信息进行分类。
相应的,本发明实施例提供一种信息分类装置,包括:
获取单元,用于获取待分类信息,所述待分类信息包括文本内容和公式内容;
文本特征提取单元,用于对所述文本内容进行特征提取,得到所述待分类信息的文本特征;
切分单元,用于对所述公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合;
公式特征提取单元,用于根据所述文本内容,对所述公式子串集合进行特征提取,得到所述待分类信息的公式特征;
分类单元,用于基于所述文本特征和公式特征,对所述待分类信息进行分类。
可选的,在一些实施例中,所述切分单元,具体可以用于在所述公式内容中识别出每一公式字符的字符类型;根据所述公式字符的字符类型,将所述公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容。
可选的,在一些实施例中,所述切分单元,具体可以用于读取所述公式内容中的公式字符,得到目标公式字符;当所述目标公式字符为标准公式字符时,将所述目标公式字符作为所述标准公式字符,得到所述标准化后的公式内容;当所述目标公式字符为非标准公式字符时,根据所述目标公式字符的字符类型将所述目标公式字符替换为所述标准公式字符,得到所述标准化后的公式内容。
可选的,在一些实施例中,所述切分单元,具体可以用于当所述目标公式字符为变量字符时,在预设标准公式字符集合中筛选出所述变量字符对应的标准变量字符,并将所述目标公式字符替换为所述标准变量字符,得到所述标准化后的公式内容;当所述目标公式字符为符号字符时,对所述目标公式字符的格式进行转换,得到转换后公式字符,并将所述目标公式字符替换为所述转换后公式字符,得到所述标准化后的公式内容;当所述目标公式字符为常量字符时,在所述预设标准公式字符集合中筛选出所述常量字符对应的标准常量字符,并将所述目标公式字符替换为所述标准常量字符,得到所述标准化后的公式内容。
可选的,在一些实施例中,所述切分单元,具体可以用于获取第一预设公式字符组与预设变量字符之间的对应关系;在所述公式内容中提取出所述第一预设公式字符组,并根据所述对应关系,将所述第一预设公式字符替换为对应的预设变量字符,得到替换后公式内容;所述根据所述公式字符的字符类型,将所述公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容,包括:根据所述公式字符的字符类型,将所述替换后公式内容中的公式字符替换为标准公式字符。
可选的,在一些实施例中,所述切分单元,具体可以用于在所述公式内容中筛选出预设运算字符类型对应的运算字符,得到需要转换的目标运算字符;当所述目标运算字符在所述公式内容中的位置为预设位置时,将所述目标运算字符进行删除,得到转换后公式内容;当所述目标运算字符在所述公式内容中的位置与预设位置不同时,在预设标准运算字符集合中筛选出标准运算字符,并将所述目标运算字符转换为所述标准运算字符,得到所述转换后公式内容;所述根据所述公式字符的字符类型,将所述公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容,包括:根据所述公式字符的字符类型,将所述转换后公式内容中的公式字符替换为所述标准公式字符,得到所述标准化后的公式内容。
可选的,在一些实施例中,所述切分单元,具体可以用于在所述标准化后的公式内容中筛选出第二预设公式字符组对应的公式字符,并将筛选出的公式字符进行组合,得到目标公式子串;基于预设切分粒度,将所述标准化后的公式内容中除所述目标公式子串以外的公式字符进行切分,得到基础公式子串;将所述目标公式子串与基础公式子串进行融合,得到所述公式子串集合。
可选的,在一些实施例中,所述文本特征提取单元,具体可以用于对所述文本内容进行分词,得到文本词集合;采用训练后分类模型的文本关联网络对所述文本词集合中的文本词进行特征提取,得到所述文本词集合中文本词的文本关联特征;根据所述文本关联特征确定所述文本词集合中每一文本词对应的文本关联权重,所述文本关联权重用于指示文本词集合中文本词之间的关联关系;基于所述文本关联权重,对所述文本关联特征进行加权,得到所述待分类信息的文本特征。
可选的,在一些实施例中,所述公式特征提取单元,具体可以用于采用所述训练后分类模型的公式关联网络对所述公式子串集合进行特征提取,得到所述公式子串集合中公式子串的公式关联特征;根据所述文本内容中的文本词的文本关联特征,确定所述公式子串集合中每一公式子串的公式关联权重,所述公式关联权重用于指示公式子串与文本词之间的映射关系;基于所述公式关联权重,将所述公式关联特征和文本关联特征进行融合,得到所述待分类信息的公式特征。
可选的,在一些实施例中,所述分类单元,具体可以用于将所述文本特征和公式特征进行融合,得到所述待分类信息的信息特征;采用所述训练后分类模型的分类网络分别计算所述待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度;基于所述信息相似度,对所述待分类信息进行分类。
可选的,在一些实施例中,所述信息分类装置还可以包括训练单元,所述训练单元具体可以用于采集信息样本对,所述信息样本对包括已标记相似关系的信息对;采用预设分类模型对所述信息样本对的相似关系进行预测,得到预测相似关系;根据所述预测相似关系和标注相似关系对所述预设分类模型进行收敛,得到所述训练后分类模型。
可选的,本发明实施例还可以提供一种试题匹配方法,可以提升试题匹配的准确性,具体可以如下:
一种试题匹配方法,包括:
获取待匹配试题,所述待匹配试题包括文本内容和公式内容;
对所述文本内容进行特征提取,得到所述待匹配试题的文本特征;
对所述公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合;
根据所述文本内容,对所述公式子串集合进行特征提取,得到所述待匹配试题的公式特征;
基于所述文本特征和公式特征,对所述待匹配试题进行匹配。
可选的,本发明实施例还提供一种服务器,包括:
获取单元,用于获取待分类信息,所述待分类信息包括文本内容和公式内容;
文本特征提取单元,用于对所述文本内容进行特征提取,得到所述待分类信息的文本特征;
切分单元,用于对所述公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合;
公式特征提取单元,用于根据所述文本内容,对所述公式子串集合进行特征提取,得到所述待分类信息的公式特征;
分类单元,用于基于所述文本特征和公式特征,对所述待分类信息进行分类。
此外,本发明实施例还提供一种设备(也称电子设备),包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的信息分类方法或试题匹配方法中的步骤。
此外,本发明实施例还提供一种存储介质(也称计算机可读存储介质),所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种信息分类方法或试题匹配方法中的步骤。
本申请实施例在获取待分类信息后,一方面,可以对待分类信息中的文本内容进行分词处理和特征提取,得到该待分类信息的文本特征;另一方面,还可以对该待分类信息中的公式内容进行标准化处理、切分和特征提取,得到待分类信息的公式特征,最后,再基于文本特征和公式特征,对待分类信息进行分类;可见,该方案在进行信息分类时,不仅考虑了文本内容中的语义相似性,还可以考虑其他非文本内容如公式内容等有效信息,使得待分类信息的信息特征更加准确,因此,可以提升信息分类的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的信息分类方法的场景示意图;
图2是本发明实施例提供的信息分类的流程示意图;
图3是本发明实施例提供的提取待分类信息的信息特征的示意图;
图4是本发明实施例提供的信息分类方法的另一流程示意图;
图5是本发明实施例提供的对试题预处理的过程示意图;
图6是本发明实施例提供的终端展示的以题搜题的页面示意图;
图7是本发明实施例提供的服务器的结构示意图;
图8是本发明实施例提供的信息分类装置的结构示意图;
图9是本发明实施例提供的信息分类装置的另一结构示意图;
图10是本发明实施例提供的设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种信息分类方法、装置和存储介质。其中,该信息分类装置可以集成在设备中,该设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以信息分类装置集成在设备中为例,设备在获取待分类信息后,一方面,对该待分类信息中的文本内容进行分词处理,得到文本词集合,并对文本词集合中的文本词进行特征提取,得到待分类信息的文本特征,另一方面,对该分类信息中的公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合,然后,根据待分类信息的文本内容中的文本词,对公式子串集合进行特征提取,得到待分类信息的公式特征,最后,再基于内容特征和公式特征对待分类信息进行分类,进而达到对待分类信息精准分类的目的。
可选的,该待分类信息除了可以包括文本内容和公式内容之外,还可以包括其他内容,在此不作赘述。
需说明的是,本申请实施例提供的信息分类方法涉及到人工智能领域的自然语言处理方法,即在本申请实施例中,可以利用人工智能的自然语言处理方法对待分类信息中的文本内容和公式内容进行特征提取,得到待分类信息的信息特征,并基于这些信息特征对待分类信息进行分类。
所谓人工智能(Artificial Intelligence,AI),指的是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习、以及自然语言处理(Nature Language processing,NLP)等方向。
其中,自然语言处理是作为计算机科学领域与人工智能领域中的一个重要方向。主要研究如何能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。由于自然语言处理是一门融语言学、计算机科学、数学于一体的科学,因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从信息分类装置的角度进行描述,该信息分类装置具体可以集成在设备中,该设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以进行信息分类的智能设备等设备。
一种信息分类方法,包括:
获取待分类信息,该待分类信息包括文本内容和公式内容,对文本内容进行特征提取,得到待分类信息的文本特征;对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合;根据文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征;基于文本特征和公式特征,对待分类信息进行分类。
如图2所示,以信息分类装置集成在服务器为例,该信息分类方法的具体流程如下:
101、获取待分类信息。
其中,待分类信息可以包括文本内容和公式内容,比如,待分类信息可以为试题,该试题就可以包括试题的文本内容和公式内容,等等。
所谓文本内容指的是包含文本字符的内容,而公式内容则指的是由数学字符组成的,用于表征各个量之间的一定关系(定律或定理)的式子。其中,数学字符可以为公式字符,比如,变量字符、常量字符和运算字符,等等。其中,变量字符可以包括大写或小写的字符;符号字符可以包括一些特定的符号,比如,角的符号、根号或者其他符号;常量字符可以包括数字或其他一些特定的表示常量的字符;运算字符可以为进行运算的字符,比如,可以包括加号、减号、乘号、除号以及其他运算符号对应的字符,等等。
其中,获取待分类信息的方式可以有多种,比如,可以直接获取待分类信息,或者,当待分类信息的内存较大或者数量较多时,也可以采用间接的方式获取该待分类信息,等等,具体可以如下:
(1)直接获取待分类信息;
例如,信息分类装置可以直接接收用户通过终端上传的待分类信息,或者,可以在网络上获取包含文本内容和公式内容的信息作为待分类信息,或者,还还可以在信息平台的信息数据库中提取出候选分类信息,对候选分类信息进行检测,将包含文本内容和公式内容的候选分类信息作为待分类信息,等等。
(2)间接获取待分类信息;
例如,当待分类信息的内存较大或者数量较多时,信息分类装置可以接收终端发送的信息分类请求,其中,该信息分类请求可以包括用户或者信息服务商存储待分类信息的存储地址,然后,信息分类装置在信息分类请求中提取出存储地址,根据该存储地址,在内存或缓存中获取待分类信息。
可选的,当成功获取到该待分类信息之后,信息分类装置还可以向终端发送提示信息,以提示终端当前已成功获取到待分类信息。
可选的,信息分类装置在根据存储地址获取待分类信息时,除了可以逐个获取待分类信息之外,还可以批量同时获取,或者,还可以根据负载请求,分批或者在预设时间内获取待分类信息,等等,在此不作赘述。
此外,为了方便后续操作,在获取到待分类信息之后,还可以在待分类信息中提取出文本内容和公式内容,比如,可以在待分类信息在提取出公式内容,然后,将待分类信息中剩下的内容作为文本内容,等等;
其中,提取公式内容的方式可以包括多种,比如,可以在待分类信息中识别出公式字符,将公式字符作为公式内容,或者,还可以在待分类信息中筛选出预设公式字符组,将公式字符组作为公式内容,等等,在待分类信息中提取出公式内容之后,便可以将待分类信息中剩下的内容就可以作为文本内容,从而达到在待分类信息中提取出文本内容和公式内容的目的。
102、对文本内容进行特征提取,得到待分类信息的文本特征。
其中,文本特征可以为表征文本内容的语义特征,所谓语义特征,也称为义素(SEME),是词的义位(MEME,相当于义项的意义的最小单位)的构成因子,是义位的区别性特征,它可以表征词与他词的组合关系。
其中,对文本内容进行特征提取的方式可以有多种,比如,可以先对文本内容进行分词处理,得到文本词集合,然后,对文本词集合中的文本词进行特征提取,进而得到待分类信息的文本特征,等等;具体可以如下:
(1)对文本内容进行分词处理,得到文本词集合。
例如,可以采用分词算法对文本内容进行分词处理,得到初始文本词集合,对初始文本词集合中的文本词进行过滤,得到文本词集合。
其中,分词算法可以包括多种,比如,基于词典的分词算法和基于模型的分词算法,即步骤“采用分词算法对文本内容进行分词处理,得到初始文本词集合”具体可以如下:
可以基于词典将文本内容中的句子进行切分,将切分后的词进行组合,得到初始文本词集合,等等。其中,基于词典的具体分词算法可以也包括多种,譬如,最大匹配分词算法、最短路径分词算法和基于n-gram model(一种分词算法)的分词算法。
或者,还可以采用基于模型的分词算法将文本内容中的句子按照字符进行切分,将切分的字符进行组合,得到文本词,从而就可以得到初始文本词集合;其中,该基于模型的分词算法也可以包括多种,比如,生成式模型分词算法、判别式模型分词算法和神经网络分词算法等分词算法,等等。
在得到初始文本词集合之后,便可以对初始文本词集合中的文本词进行过滤,得到文本词集合,其中,过滤的方式也可以包括多种,比如,可以对初始文本词集合中的文本词进行去停用词处理,譬如,可以在初始文本词集合中筛选出预设停用词库中包括的文本词,从而得到初始文本词集合中的停用词,然后,将该停用词进行过滤,得到文本词集合;或者,还可以基于预设无用词对应的正则表达式对初始文本词集合中的文本词进行无用词过滤,然后,将过滤了无用词之后的初始文本词集合作为文本词集合,等等。
其中,停用词指的是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词库(表)。而无用词指的是与信息分类无关的一些词,比如,以待分类信息为试题为例,无用词就可以包括试题的序号、指示题目位置或者没有实际意义的词。
(2)对文本词集合中的文本词进行特征提取,得到待分类信息的文本特征。
例如,具体可以如下:
A1、可以采用训练后分类模型的文本关联网络对文本词集合中的文本词进行特征提取,得到文本词集合中文本词的文本关联特征。
例如,可以对文本词集合中的文本词进行预处理,比如,可以为对文本词集合中的文本词进行词向量初始化,得到文本词集合中每一文本词对应的文本初始化向量,然后,采用训练后分类模型的文本关联网络对文本初始化向量进行特征提取,得到文本词集合中文本词的文本关联特征,文本关联特征可以理解为在文本词集合中用于表征文本词与文本词之间的关联关系的特征。
其中,对文本词集合中文本词进行词向量初始化的方式可以有多种,比如,具体可以采用word2vec(词向量处理模型)对文本词进行词向量初始化,得到文本词的文本初始化向量,等等,在进行词向量初始化时,文本初始化向量的维度可以为预设维度,比如,可以为300维或者其他维数的矩阵来表示,以文本词集合的最大长度为200(不足的话用0进行填充)为例,当预设维度为300时,该文本初始化向量的矩阵维度就可以为200*300。
其中,采用训练后分类模型的文本关联网络度文本初始化向量进行特征提取的方式也可以有多种,比如,可以采用自注意力网络(self-attention)对文本词的文本初始化向量进行特征提取,得到文本词的文本关联特征,譬如,具体的提取过程可以为将文本初始化向量转换为多个维度的空间向量,然后,将该多个维度的空间向量作为文本词集合中每一文本词的文本关联特征。
例如,以将文本初始化向量转换为三个维度的空间向量为例,则步骤“采用自注意力网络对文本词的文本初始化向量进行特征提取,得到文本词的文本特征”可以包括:
采用自注意力网络对文本初始化向量转换为查询向量(q)、键向量(k)和值向量(v),比如,具体可以采用自注意力网络将文本初始向量分别与三个维度的转换参数进行融合,得到查询向量(q)、键向量(k)和值向量(v),将查询向量(q)、键向量(k)和值向量(v)作为文本词集合中每一文本词的文本关联特征。
A2、根据文本关联特征确定文本词集合中每一文本词对应的文本关联权重。
例如,可以在文本词集合中选择任意一个文本词,将该文本词的查询向量(q)与文本词集合中每一文本词的键向量(k)进行点积,就可以得到该文本词对文本词集合中全部的文本词的注意力打分(score),依次类推,分别计算出文本词集合中每一个文本词对全部的文本词的注意力打分。然后,对该注意力打分进行降维,对降维后的注意力打分进行归一化处理,得到文本词集合中每一文本词对应的文本关联权重。
其中,对注意力打分进行降维的方式可以有多种,比如,可以将注意力打分除以一 个特定的数值,该数值可以根据实际应用进行设定,譬如,可以为
Figure DEST_PATH_IMAGE001
,其中k为键向量(K) 的维度,从而得到每个文本词对应的降维后的注意力打分。
其中,对降维后的注意力打分进行归一化处理的方式也可以有多种,比如,可以通过softmax函数(归一化指数函数)标准化对文本词的降维后注意力打分进行归一化处理,或者,还可以采用其他归一化的函数进行归一化处理,得到文本词对应的文本关联权重。
其中,文本关联权重用于指示文本词集合中文本词之间的关联关系,可以理解为决定了当前文本词在每个句子中每个文本词位置的表示程度。
A3、基于文本关联权重,对文本关联特征进行加权,得到待分类信息的文本特征。
例如,可以根据文本关联权重对对应的文本词的文本关联特征中的值向量(v)进行加权,并将加权后的值向量进行融合,得到文本词对应的文本特征,然后,将文本词对应的文本特征进行融合,得到待分类信息的文本特征。
其中,文本关联网络除了可以采用self-attention网络(自注意力网络)以外,还可以采用其他网络,该文本关联网络的主要作用在于捕捉文本词集合中文本词与文本词之间的关联关系,进而确定每个文本词在文本词集合所占的权重。对该文本关联网络的可以采用标注文本词之间的关联关系的文本内容样本进行训练。
103、对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合。
其中,标准化处理可以理解为将公式内容中的公式字符转换为标准字符,从而得到标准化后的公式内容,标准字符可以包括标准变量字符、标准符号字符和标准常量字符等等。公式子串集合可以为将标准化后的公式内容切分成公式子串之后得到集合,所谓公式子串可以理解为将公式字符进行组合得到的子串。
其中,得到公式子串集合的具体过程可以如下:
S1、对公式内容进行标准化处理。
例如,可以在公式内容中识别出每一公式字符的字符类型,然后,根据公式字符的字符类型,将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容,具体可以如下:
(1)在公式内容中识别出每一公式字符的字符类型。
例如,可以先将公式内容的格式转换为标准格式,在标准格式的公式内容对每个公式字符进行识别,根据公式字符的识别结果确定该公式字符的字符类型。
其中,将公式内容的格式转换为标准格式的方式可以有多种,比如,可以将公式内容用一个token(一种标记序列)(如:LATEX_TOKEN)进行表示,这样就可以使得公式内容的格式转换为Latex(一种数据格式)格式,或者,还可以直接通过格式转换工具将公式内容的格式转换为标准格式。其中,对于标准格式,以根据实际应用进行设置,比如,可以为Latex格式或者其他格式。
其中,根据公式字符的识别结果确定该公式字符的字符类型可以有多种,比如,大小写字母变量的字符类型可以为变量字符,关键符号的字符类型可以为符号字符,数字的字符类型可以为常量字符,运算符号可以为运算字符等,等等。
(2)根据公式字符的字符类型,将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容。
例如,读取公式内容中的公式字符,得到目标公式字符,当目标公式字符为标准公式字符时,将目标公式字符作为标准公式字符,从而得到标准化后的公式内容,意味着当目标公式字符为标准公式字符时,不对该目标公式字符进行转换,就可以得到标准化后的公式内容。当目标公式字符为非标准公式字符时,根据目标公式字符的字符类型,将目标公式字符替换为标准公式字符,从而得到标准后的公式字符。
其中,读取公式字符的主要目的是判断目标公式字符是否为标准公式字符,所谓的标准公式字符可以为预设的标准规则对应的公式字符。判断的过程可以包括多种,比如,以常量字符的标准字符为0为例,当读取到的常量字符之后,判断读取到的这个常量字符是否为0,如果该常量字符为0时,就可以确定读取到目标公式字符为标准公式字符,反之则为非标准公式字符,其他字符类型对应的目标公式字符以此类推。
其中,当目标公式字符为非标准公式字符时,根据目标公式字符的字符类型,将目标公式字符替换为标准公式字符的方式可以有多种,具体可以如下:
B1、当目标公式字符为变量字符时在预设标准公式字符集合中筛选出变量字符对应的标准变量字符,并将目标公式字符替换为标准变量字符,得到标准化后的公式内容。
例如,以目标公式字符为大写字母变量或者小写字母变量为例,将可以将大写字母变量统一替换成大写字母变量对应的标准变量字符,该标准变量字符可以为A或者其他任意字符,还可以将小写字母变量统一替换为小写字母变量对应的标准变量字符,该标准变量字符可以为a或者其他任意字符,得到标准化后的公式内容。
其中,在这里需要说明的时候不同类型的变量字符所对应的标准变量字符也不同,比如,大写字母变量和小写字母变量对应的标准变量字符就不同,
B2、当目标公式字符为符号字符时,对目标公式字符的格式进行转换,得到转换后公式字符,将目标公式字符替换为转换后公式字符,得到标准化后的公式内容。
例如,以目标公式字符为表示分数符号的符号字符“\frac”为例,可以将该目标公式字符替换为大写单词[FRAC],从而得到转换后公式字符,或者,还可以将目标公式字符转换为固定格式的公式字符,也可以得到转换后公式字符,将目标公式字符替换为转换后公式字符,得到标准化后的公式内容。
B3、当目标公式字符为常量字符时,在预设标准公式字符集合中筛选出常量字符对应的标准常量字符,将目标公式字符替换为标准常量字符,得到标准化后的公式内容。
例如,以目标公式字符为数字常量为例,就可以在预设标准公式字符集合中筛选出数字常量对应的标准常量字符,标准常量字符可以为0、任意数字或者任意字符等。以标准常量字符为0为例,就可以将公式内容中的所有数字常量替换为0,得到标准化后的公式内容。
其中,需要说明的是数字常量对应的标准常量字符为一个数字,也就意味着将公式内容中的数字常量统一替换为一个数字或字符。
可选的,在将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容之前,还可以对公式内容中的公式字符组进行转换,具体可以如下:
例如,获取第一预设公式字符组与预设变量字符之间的对应关系,在公式内容中提取出第一预设公式字符组,并基于对应关系,将第一预设公式字符组替换为对应的预设变量字符,得到替换后公式内容,根据公式字符的字符类型,将替换后公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容。
其中,获取第一公式字符组与预设变量字符之间的对应关系的方式可以包括多种,比如,预设公式字符组与预设变量字符之间的对应关系可以由用户设定之后存储在数据库中,信息分类装置直接在数据库中获取,或者,还可以由信息分类装置自行设置,并存储至数据库中,设置的对应关系可以包括多种,比如,可以设置将一个或多个预设公式字符组转换为预设变量字符的转换关系,该第一预设公式字符组可以为变量和常量相乘所对应的公式字符组,譬如,可以为0*a、a*0、0a,或者,还可以为常量与变量之间的固定搭配所对应的公式字符组,比如,可以为(a+0)或(b+2)等,对应的转换关系用于指示将这些第一预设公式字符组转换为预设变量字符,比如,该转换关系可以为将a*0转换为a,也可以为将(a+0)转换为a等,将该转换关系作为对应关系,并将对应关系存储至数据库。
其中,对公式字符组进行转换的方式也可以包括多种,比如,以第一预设公式字符组为a*0为例,则就可以在公式内容中提取出a*0,以对应关系为将a*0转换为a为例,就可以直接将公式内容中的a*0转换为a,以此类推,将公式内容中的所有的第一预设公式字符组转换为对应的预设变量字符,其中,对于预设变量字符来说,不同的第一预设公式字符组对应的预设变量字符可以相同也可以不同。
可选的,在将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容之前,还可以对公式内容中的运算字符进行处理,具体可以如下:
在公式内容中筛选出预设运算字符类型对应的运算字符,得到需要转换的目标运算字符,当目标运算字符在公式内容中的位置为预设位置时,将目标运算字符进行删除,得到转换后公式内容,当目标运算字符在公式内容中的位置与预设位置不同时,在预设标准运算字符集合中筛选出标准运算字符,并将目标运算字符转换为标准运算字符,得到转换后公式内容,根据公式字符的字符类型,将转换后公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容。
其中,预设字符运算字符类型可以包括一个或多个预设的运算字符类型,比如,可以包括加号、减号、乘号或除号等任意一个或多个运算字符。以预设运算字符类型为减号为例,就可以在公式内容中筛选出所有的“-”,将“-”作为需要转换的目标运算字符。
其中,预设位置可以为公式内容中一个或多个固定的位置,比如,该预设位置可以为公式内容的首字符位置,也可以为末字符位置,还可以为中间某个固定字符位置。以预设位置为公式内容的首字符位置为例,当目标运算字符在公式内容中的位置为公式内容的首字符位置时,就可以直接将该目标运算字符进行删除,当目标运算字符在公式内容中的位置不为公式内容的首字符位置时,在预设标准运算字符集合中筛选出标准运算字符,并将目标运算字符转换为标准运算字符,得到转换后公式内容,具体可以如下:
例如,以目标运算符号为“-”为例,在公式中减去一个数相当于加上它的相反数,因此,就可以“+”作为“-”号的标准运算字符,将公式内容中不在预设位置的“-”全部转换为“+”,就可以得到转换后公式内容。
其中,对公式内容中的预设公式字符组和运算字符的转换也可以在将公式字符转换为标准公式字符之后,从而得到标准化后的公式内容。
S2、对标准化后的公式内容进行切分,得到公式子串集合。
例如,在标准化后的公式内容中筛选出第二预设公式字符组对应的公式字符,将筛选出的公式字符进行组合,就可以得到目标公式子串,基于预设切分粒度,将标准后的公式内容中除目标公式子串以外的公式字符进行切分,得到基础公式子串,将目标公式子串与基础公式子串进行融合,得到公式子串集合。
其中,第二预设公式字符组可以包括多个预先设定好的公式字符组,比如,可以包括一些特定符号和特定符号内所包含的公式字符,比如,可以为[XXX]、{a}、{0}、(a)和(0)等,或者,还可以包括连续相同的多个公式字符组成的公式字符组,比如,可以包括“aaaa”或者“AAAA”等,因此,可以在标准化后的公式内容中筛选出特定符号和特定符号内所包含的公式字符、以及连续相同的多个公式字符等。
筛选出公式字符之后,将筛选出的公式字符进行组合,就可以得到目标公式子串,组合的方式可以包括多种,比如,以预设公式字符组为“aaaa”为例,筛选出的公式字符就可以“a、a、a、a”,就这些公式字符进行组合,就可以得到“aaaa”,将“aaaa”作为目标公式子串。
其中,预设切分粒度可以为字符数量,比如,可以为一个字符或多个字符。当预设切分粒度为一个字符时,就可以将标准化的公式内容中除目标公式子串以外的公式字符切分成预设切分粒度的公式字符,也就是切分为多个单字符,将这些单字符作为基础公式子串。
对于基础公式子串和目标公式子串来说,结合一个具体的例子来说,比如,以标准化后的公式内容为[ANGLE]AAA+[ANGLE]AAA={{0}^{[CIRC]}},预设切分粒度为1个字符为例,则目标公式子串就可以为[ANGLE]、AAA、[ANGLE]、AAA、{0}、[CIRC],基础公式子串就可以为+、=、{、^、{、}和}。
其中,将目标公式子串与基础公式子串进行融合的方式可以包括多种,比如,可以直接将目标公式子串与基础公式子串进行组合,就可以得到公式子串集合,或者,还可以根据目标公式子串与基础公式子串在标准化后的公式内容中的位置,进行排列组合,得到公式子串集合,比如,还是以标准化后的公式内容为[ANGLE]AAA+[ANGLE]AAA={{0}^{[CIRC]}}为例,切分后得到的公式子串集合可以为[ANGLE]、AAA、+、[ANGLE]、AAA、=、{、{0}、^、{、[CIRC]、}、}。
104、根据文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征。
例如,可以采用训练后分类模型的公式关联网络对公式子串集合进行特征提取,得到公式子串集合中公式子串的公式关联特征,根据文本内容中的中文本词的文本关联特征,确定公式子串集合中公式子串的公式关联权重,基于公式关联权重,将文本关联特征和公式关联特征进行融合,得到待分类信息的公式特征,具体可以如下:
(1)采用训练后分类模型的公式关联网络对公式子串集合进行特征提取,得到公式子串集合中公式子串的公式关联特征。
例如,可以对公式子串集合中的公式子串进行预处理,比如,可以对对公式子串进行向量初始化,得到公式子串集合中每一公式子串的公式初始化向量。采用训练后分类模型的公式关联网络对公式初始化向量进行特征提取,得到公式子串的公式关联特征。
其中,对公式子串集合中公式子串进行向量初始化的方式可以有多种,比如,可以采用随机初始化方式对公式子串进行向量初始化,或者,还可以采用其他向量初始化的方式对公式子串进行向量初始化操作。下面以随机初始化方式为例,初始化向量维度为150,公式子串集合最大长度为200,不足的用0填充,公式初始化向量的矩阵维度就可以为200*150。
其中,采用训练后分类模型的公式关联网络对公式初始化向量进行特征提取的方式也可以有多种,比如,可以采用交互注意力网络(co-attention)对公式初始化向量进行特征提取,譬如,具体的特征提取过程可以为:将公式子串的公式初始化向量转换为多个维度的空间向量,然后,将该多个维度的空间向量作为公式子串集合中每一公式子串的公式关联特征。
例如,以将公式初始化向量转换为三个维度的空间向量为例,则步骤“采用交互注意力网络对公式初始化向量进行特征提取,得到公式子串的公式关联特征”可以包括:
采用交互注意力网络将公式初始化向量转换为查询向量(q)、键向量(k)和值向量(v),比如,具体可以采用交互注意力网络将文本初始化向量与三个维度的转换参数进行融合,得到查询向量(q)、键向量(k)和值向量(v),然后,将查询向量(q)、键向量(k)和值向量(v)作为公式子串集合中每一公式子串的公式关联特征。
(2)根据文本内容中的中文本词的文本关联特征,确定公式子串集合中公式子串的公式关联权重。
例如,在公式子串集合中选择任意一个公式子串,将该公式子串的查询向量(q)与文本词的文本关联特征中的键向量(k)进行点积,就可以得到该公式子串对文本词集合中全部的文本词的注意力打分,依次类推,分别计算出公式子串集合中剩下公式子串对文本词集合中文本词的公式-文本的注意力打分。然后,对该公式-文本的注意力打分进行降维,对降维后的注意力打分进行归一化处理,得到公式子串对应的公式关联权重。
其中,对公式-文本的注意力打分进行降维的方式可以有多种,比如,可以将该注 意力打分除以一个特定的数值,该数值可以根据实际应用进行设定,譬如,可以为
Figure 124798DEST_PATH_IMAGE001
,其 中k为键向量(K)的维度,从而得到每个公式子串对应的降维后的注意力打分。
其中,对降维后的注意力打分进行归一化处理的方式也可以有多种,比如,可以通过softmax函数(归一化指数函数)标准化对公式子串的降维后注意力打分进行归一化处理,或者,还可以采用其他归一化的函数进行归一化处理,得到公式子串对应的公式关联权重。
其中,公式关联权重用于指示公式子串与文本词之间的映射关系,该映射关系可以包括关键词与特定公式的对应关系,从而就可以更好的找到公式子串中的关键部分,从而可以更加准确的提取出待分类信息的公式特征。
(3)基于公式关联权重,将文本关联特征和公式关联特征进行融合,得到待分类信息的公式特征。
例如,可以根据公式关联权重对文本关联特征和公式关联特征中的值向量(v)进行加权,并将加权后的值向量(v)进行融合,从而就可以得到待分类信息的公式特征。
其中,采用文本关联网络和公式关联网络去提取待分类信息的文本特征和公式特征的机制,也可以被称为文本-公式联合注意力机制(Text-Formula-Co-Attention,TFCA),其核心就可以采用联合注意力捕捉文本词与文本词之间的关联关系和公式子串与文本词之间的映射关系,其中,公式关联网络用于表征公式关联特征为公式子串与文本词之间的关联关系。
105、基于文本特征和公式特征,对待分类信息进行分类。
例如,将文本特征和公式特征进行融合,得到待分类信息的信息特征,采用训练后分类模型的分类网络分别计算待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度,基于信息相似度,对待分类信息进行分类,具体可以如下:
(1)将文本特征和公式特征进行融合,得到待分类信息的信息特征。
例如,可以将文本特征和公式特征进行融合,得到待分类信息的初始信息特征,然后,对初始信息特征进行卷积处理,得到待分类信息的信息特征。
其中,将文本特征和公式特征进行融合的方式有多种,比如,可以将文本特征和公式特征进行拼接,从而得到待分类信息的初始信息特征,或者,还可以计算待分类信息中的文本内容和公式内容的内容占比,根据该内容占比,确定内容权重,基于该内容权重,对文本特征和公式特征进行加权,将加权后的文本特征和公式特征进行拼接,从而得到待分类信息的初始信息特征。其中,当待分类信息中还包括除了文本内容和公式内容以外的其他内容时,还可以提取其他内容中的内容特征信息,将该内容特征信息与文本特征和公式特征进行融合,以待分类信息为试题为例,这里的其他内容可以包括题目质量、题目类型、题目等级、题目地区和题目出处等。
其中,对初始信息特征进行卷积处理的方式可以有多种,比如,可以采用卷积层对初始信息特征进行卷积处理,得到待分类信息的信息特征,卷积层的数量可以根据实际应用进行设定,或者,还可以采用卷积模块对初始信息特征进行卷积处理,得到待分类信息的信息特征。
(2)采用训练后分类模型的分类网络分别计算待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度。
例如,计算信息相似度的方式可以有多种,比如,可以分别计算待分类信息的信息特征与预设信息的信息特征之间的特征距离,基于该特征距离,确定该信息相似度,或者,还可以分别计算待分类信息的信息特征与预设信息的信息特征之间的特征相似度,基于该特征相似度,确定该信息相似度。
(3)基于信息相似度,对待分类信息进行分类。
例如,对待分类信息进行分类的方式可以包括多种,比如,可以基于信息相似度,在预设信息集合中筛序出与待分类信息相似的至少一个预设信息,得到候选信息,将候选信息和待分类信息分为一类,或者,可以获取候选信息的类型,从而确定待分类信息的分类结果,或者,当候选信息的类型为多个时,还可以基于信息相似度,对候选信息中进行排序,根据排序结果,确定待分类信息的分类结果。根据排序结果确定待分类信息的分类结果的方式可以有多种,具体可以如下:
比如,可以在候选信息中筛选出与待分类信息的信息相似度最高的目标信息,将信息内容的类型作为待分类信息的分类结果,或者,还可以在候选信息中筛选出预设排序范围的候选信息作为目标信息,譬如,排名前五的候选信息作为目标信息,在目标信息的类型中筛选出最多的类型作为待分类信息的分类结果,比如,目标信息中存在2个类型(A和B)的候选信息,当A类型的目标信息的数量为3个,B类型的目标信息的数量为2个时,此时,就可以将B类型作为待分类信息的分类结果。
可选的,对待分类信息进行分类之后,就可以将预设信息集合中与待分类信息属于同一类型的预设信息作为待分类信息的相似信息。因此,该信息分类方法还可以应用在预设信息集合中筛选出与待分类信息相似的信息,这里的筛选,可以基于待分类信息的信息特征与预设信息集合中预设信息的信息特征的相似度进行排序,同时还可以去掉高度相似的预设信息,因为,高度相似的预设信息有可能和待分类信息完全相同。然后,在基于排序结果和信息相似度,在预设信息集合中筛选出与待分类信息相似但不相同的预设信息,将这些信息发送至终端进行展示。
可选的,该训练后分类模型除了可以由运维人员预设进行设置之外,也可以由信息分类装置自行训练来得到,即步骤“采用所述训练后分类模型的分类网络分别计算所述待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度”之前,该信息分类方法还可以包括:
采集信息样本对,该信息样本对包括已标注相似关系的内容对,采用预设分类模型度对信息样本对的相似关系进行预测,得到预测相似关系,根据预测相似关系和标注相似关系对预设分类模型进行收敛,得到训练后分类模型,具体可以如下:
(1)采集内容样本对。
其中,内容样本对包括已标注相似关系的内容对,所谓内容样本对可以为一对包含文本内容和公式内容的内容样本。
其中,采集内容样本对可以如下:
例如,获取原始信息,在原始信息中筛选出包含公式内容和文本内容的目标信息,得到目标信息集合,在目标信息集合中提取任意两个目标信息,并标记该目标信息之间相似关系,相似关系用于指示目标信息之间的相似关系,比如,可以将相似标记为1,不相似标记为2,或者其他标记方法,从而得到信息样本对。
其中,相似关系可以基于信息对中的目标信息之间的相似度来确定,比如,当目标信息之间的相似度超过第一预设相似阈值,就可以确定目标信息之间的相似关系为相似,当目标信息之间的相似度低于第二预设相似阈值时,就可以确定目标信息之间的相似关系为不相似。
(2)采用预设分类模型对信息样本对的相似关系进行预测,得到预测相似关系。
例如,采用预设分类模型分别对信息样本对中的文本内容和公式内容进行特征提取,分别得到信息样本对中各个信息样本的文本特征和公式特征,将文本特征和公式特征进行融合,得到信息样本对中各个信息样本的信息特征,分别计算信息样本对中各个信息样本的信息特征的相似度,基于信息特征的相似度,确定信息样本对的预测相似关系。
(3)根据预测相似关系和标注相似关系对预设分类模型进行收敛,得到训练后分类模型。
例如,根据预测相似关系和标注相似关系,确定信息样本对的损失信息,比如,可以采用多种损失函数来确定内容样本对的损失信息,譬如,可以采用交叉嫡损失函数来确定信息样本对的损失信息,或者,还可以采用插值损失函数或Dice函数(一种损失函数)来确定信息样本对的损失信息。
在确定该损失信息之后,基于该损失信息,对预设分类模型的网络参数进行更新,对网络参数更新的方法可以包括多种,比如,可以采用梯度下降算法或者其他算法基于损失信息,对预设分类模型的网络参数进行更新,从而得到训练后分类模型。
其中,对待分类信息进行分类的核心在提取待分类信息的信息特征,待分类信息的内信息特征提取过程可以如图3所示,对待分类信息的文本内容和公式进行预处理,得到文本词集合公式子串集合,然后,对文本词集合和公式子串集合进行向量初始化,从而得到文本初始化向量和公式初始化向量,采用文本-文本注意力网络对文本初始化向量进行特征提取,得到待分类信息的文本特征,采用公式-文本注意力网络对公式初始化向量和文本初始化向量进行特征提取,从而得到待分类信息的公式特征。将文本特征与公式特征进行融合,就可以得到待分类信息的信息特征,基于该信息特征,就可以对待分类信息进行分类。
可选的,在一实施例中,该信息分类装置还包括将待分类信息的内容特征存储至区块链上。
可选的,在一实施例中,该信息分类装置还以集成在终端上对待分类信息进行分类,具体可以如下:
终端获取待分类信息后,一方面,对文本内容进行特征提取,得到待分类信息的文本特征;另一方面,对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合;然后,根据文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征,最后,终端基于文本特征和公式特征,对待分类信息进行分类。
由以上可知,本申请实施例在获取待分类信息后,一方面,可以对待分类信息中的文本内容进行分词处理和特征提取,得到该待分类信息的文本特征;另一方面,还可以对该待分类信息中的公式内容进行标准化处理、切分和特征提取,得到待分类信息的公式特征,最后,再基于文本特征和公式特征,对待分类信息进行分类;可见,该方案在进行信息分类时,不仅考虑了文本内容中的语义相似性,还可以考虑其他非文本内容如公式内容等有效信息,使得待分类信息的信息特征更加准确,因此,可以提升信息分类的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该信息分类装置具体集成在设备,设备为服务器,待分类信息为试题为例进行说明。
(一)服务器对分类模型进行训练,得到训练后分类模型。
1、服务器采集试题样本对。
例如,服务器获取原始试题,在原始试题中筛选出包含公式内容和文本内容的目标试题,得到目标试题集合,在目标试题集合中提取任意两个目标试题,并标注这两个目标试题之间的相似关系,将相似标记为1,不相似标记为2,从而得到试题样本对。
2、服务器采用预设分类模型对试题样本对的相似关系进行预测,得到预测相似关系。
例如,服务器采用预设分类模型分别对试题样本对中的文本内容和公式内容进行特征,分别得到试题样本对中各个试题样本的文本特征和公式特征,将文本特征和公式特征进行融合,得到试题样本对中各个试题样本的试题特征,分别计算试题样本对中各个试题样本的试题特征的相似度,基于试题特征的相似度,确定试题样本对的预测相似关系。
3、服务器根据预测相似关系和标注相似关系对预设分类模型进行收敛,得到训练后分类模型。
例如,服务器根据预测相似关系和标注相似关系,采用交叉嫡损失函数来确定试题样本对的损失信息,采用梯度下降算法或者其他算法基于损失信息,对预设分类模型的网络参数进行更新,从而得到训练后分类模型。
(二)服务器采用训练后分类模型对试题进行分类。
训练后分类模型可以包括文本关联网络、公式关联网络和分类网络,其中,文本关联网络可以为自注意力网络(self-attention),公式关联网络可以为交互注意力网络(co-attention)。
如图4所示,一种试题分类方法,具体流程如下:
201、服务器获取试题。
其中,试题可以理解为用于对对象进行考核或评价的内容,该试题中可以包括文本内容和公式内容,试题可以包含多种类型,比如,选择题、填空题、论述题或计算题等,在本方案中的试题通常可以为包含文本内容和公式内容的题目。
其中,获取试题的方式可以由多种,具体可以如下:
例如,用户可以通过终端将试题上传至服务器,使得服务器获取试题,服务器还可以在信息平台的信息数据库中提取出候选试题,对候选试题进行检测,将包含文本内容和公式内容的候选试题作为用于分类的试题。
当试题数量较多或者内存较大时,用户或者信息服务商将试题进行存储,基于存储地址触发生成试题分类请求,将试题分类请求发送至服务器,服务器在试题分类请求中提取出存储地址,基于该存储地址,获取试题。
服务器在试题中提取出公式内容,提取公式内容的方式可以包括多种,比如,可以在试题中识别出公式字符,将公式字符作为公式内容,或者,还可以在试题中筛选出预设公式字符组,将公式字符组作为公式内容,从而在试题中提取出公式内容,然后,将试题中剩下的内容就可以作为文本内容。
202、服务器对文本内容进行分词处理,得到文本词集合。
例如,服务器基于词典将文本内容中的句子进行切分,将切分后的词进行组合,得到初始文本词集合,或者,还可以将文本内容中的句子按照字符进行切分,将切分的字符进行组合,得到文本词,从而就可以得到初始文本词集合。在初始文本词集合中筛选出预设停用词库中包括的文本词,从而得到初始文本词集合中的停用词,将该停用词进行过滤,得到文本词集合。
203、服务器对文本词集合中的文本词进行特征提取,得到试题的文本特征。
例如,服务器采用word2vec模型(词向量处理模型)对文本词集合中的文本词进行词向量初始化,得到文本词的文本初始化向量,文本初始化向量的维度可以为300维,文本词集合的最大长度为200,不足的用0进行填充,使得文本初始化向量的矩阵维度就可以为200*300。采用自注意力网络将文本初始化向量转换为三个维度的空间向量,得到文本初始化向量对应的查询向量(q)、键向量(k)和值向量(v),将查询向量(q)、键向量(k)和值向量(v)作为文本词集合中每一文本词的文本关联特征。
服务器在文本词集合中选择任意一个文本词,将该文本词的查询向量(q)与文本词集合中每一文本词的键向量(k)进行点积,就可以得到该文本词对文本词集合中全部的文本词的注意力打分,依次类推,分别计算文本词集合中每一个文本词对词集合中全部文本词的注意力打分。对文本词对文本词集合中全部文本词的注意力打分除以一个特定的数值,通过softmax函数(一种归一化函数)标准化对文本词的降维后注意力打分进行归一化处理,得到文本词集合每一文本词对应的文本关联权重,根据文本关联权重对文本词的文本关联特征中的值向量(v)进行加权,并将加权后的值向量进行融合,就可以得到文本词对应的文本特征,将文本词对应的文本特征进行融合,就可以得到试题的文本特征。
204、服务器对公式内容进行标准化处理。
例如,服务器将公式内容用一个LATEX_TOKEN(一种格式为Latex的标记序列)进行标识,使得公式内容的格式就可以为Latex格式(一种内容格式),在Latex格式的公式内容中识别出每个公式字符,根据公式字符的识别结果确定该公式字符的字符类型,比如,大小写字母变量的字符类型就可以为变量字符,关键符号的字符类型就可以为符号字符,数字的字符类型就可以为常量字符,运算符号就可以为运算字符等。
服务器读取公式内容中的公式字符,得到目标公式字符,对目标公式字符是否为标准公式字符进行判断,当目标公式字符为标准公式字符时,将目标公式字符作为标准公式字符,从而得到标准化后的公式内容。当目标公式字符为非标准公式字符时,对于变量字符来说,将小写字母变量替换为a,大写字母变量替换为A,因为,在公式中大写字母与小写字母表示的意义有所不同,例如在数学公式中,常用小写字母表示变量,大写字母组合大多表示线段、三角形等。对于符号字符来说,将关键符号字符替换成大写单词。对于常量字符来说,将数字替换为0,从而得到标准化后的公式内容。
可选的,服务器在将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容之前或之后,还可以对公式内容中的公式字符组进行转换,比如,服务器获取变量与数字组成的第一预设公式字符组与预设变量字符之间的对应关系,预设变量字符可以为第一预设公式字符组中的变量,也可以为另外的变量,在公式内容中获取变量与数字组成的第一预设公式字符组,将该第一预设公式字符组替换为预设变量字符,得到替换后公式字符。
可选的,服务器在将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容之前或之后,还可以对公式内容中的运算字符进行处理,比如,在公式内容中筛选出“-”,当将“-”在公式内容的首字符位置时,将“-”删除,当“-”没有在公式内容的首字符位置时,将“-”替换为“+”。
因此,可以发现对公式内容进行标准化处理的过程可以看作三个方向,一是对公式字符进行标准化,二是对公式字符组进行标准化,三是对公式字符中的特殊运算字符进行标准化,下面以几个例子来具体说明公式内容标准化处理:
(1)原公式为:∠BAC-∠BCA=10°
Latex格式表示:$\angle BAC-\angle BCA={{10}^{\circ}}$。
标准化后的公式:$[ANGLE]AAA+[ANGLE]AAA={{0}^{[CIRC]}}$。
(2)原公式为:
Figure 245201DEST_PATH_IMAGE002
Latex格式表示:$\left(\frac{1}{2}+\frac{2}{3}-\frac{1}{4}\right)\Tim(-24)$。
标准化后的公式:$[LEFT]([FRAC]{0}{0}+[FRAC]{0}{0}+[FRAC]{0}{0}
[RIGHT])[TIMES](0)$。
(3)原公式为:
Figure DEST_PATH_IMAGE003
Latex格式表示:$4\sqrt{6{{a}^{3}}}\div 3\sqrt{\frac{{{a}^{2}}}{3}}\cdot 2a\sqrt{\frac{a}{12}}$。
标准化后的公式:$0[SQRT]{0{{a}^{0}}}[DIV]0[SQRT]{[FRAC]{{{a}^{0}
}}{0}}[CDOT]a[SQRT]{[FRAC]{a}{0}}$。
205、服务器对标准化后的公式内容进行切分,得到公式子串集合。
例如,在标准化后的公式内容中筛选出特定符号和特定符号内所包含的公式字符,比如,可以为[XXX]、{a}、{0}、(a)和(0)等,或者,还可以包括连续相同的多个公式字符组成的公式字符组,比如,可以包括“aaaa”或者“AAAA”等,将筛选出的公式字符进行组合,就可以得到目标公式子串。将标准后的公式内容中除目标公式子串以外的公式字符按照单字符进行切分,得到基础公式子串。将目标公式子串与基础公式子串进行融合,得到公式子串集合。
其中,服务器在试题题干上对公式进行抽取,得到公式部分和文本部分,对文本部分进行分词,得到文本词集合,对公式部分进行公式标准化和切分,得到公式子串集合,对文本部分和公式部分进行预处理可以同时进行,也可以按顺序进行,对试题进行预处理的过程具体可以如图5所示。
206、服务器根据文本内容,对公式子串集合进行特征提取,得到试题的公式特征。
例如,服务器可以采用随机初始化方式对公式子串进行向量初始化,初始化向量维度为150,公式子串集合最大长度为200,不足的用0填充,公式初始化向量的矩阵维度就可以为200*150。
服务器采用交互注意力网络将公式子串的公式初始化向量转换为三个维度的空间向量,得到公式初始化向量对应的查询向量(q)、键向量(k)和值向量(v),将查询向量(q)、键向量(k)和值向量(v)作为公式子串集合中每一公式子串的公式关联特征。
服务器在公式子串集合中选择任意一个公式子串,将该公式子串的查询向量(q)与文本词的文本关联特征中的键向量(k)进行点积,就可以得到该公式子串对文本词集合中全部的文本词的注意力打分,依次类推,分别计算出公式子串集合中剩下公式子串对文本词集合中文本词的注意力打分,对注意力打分除以一个特定的数值,从而得到公式子串对应的降维后的注意力打分,通过softmax函数标准化对降维后的注意力打分进行归一化处理,得到公式子串对应的公式关联权重。
服务器根据公式关联权重对文本关联特征和公式关联特征中的值向量(v)进行加权,并将加权后的值向量(v)进行融合,从而就可以得到试题的公式特征。
207、服务器基于文本特征和公式特征,对试题进行分类。
例如,服务器将文本特征和公式特征进行拼接,从而得到试题的初始试题特征,或者,还可以计算试题中的文本内容和公式内容的内容占比,根据该内容占比,确定内容权重,基于该内容权重,对文本特征和公式特征进行加权,将加权后的文本特征和公式特征进行拼接,从而得到试题的初始试题特征,对初始试题特征进行卷积处理,得到试题的试题特征。
服务器分别计算试题的试题特征与预设试题集合中预设试题的试题特征之间的特征距离,基于该特征距离,确定该试题相似度,或者,还可以分别计算试题的试题特征与预设试题的试题特征之间的特征相似度,基于该特征相似度,确定该试题相似度。
服务器基于试题相似度,在预设试题集合中筛序出与试题相似的至少一个预设试题,得到候选试题,将候选试题和试题分为一类,还可以获取候选试题的类型,从而确定试题的分类结果,当候选试题的类型为多个时,可以在候选试题中筛选出与试题的试题相似度最高的目标试题,将目标试题的类型作为试题的分类结果,还可以在候选试题中筛选出预设排序范围的候选试题作为目标试题,在目标试题的类型中筛选出最多的类型作为试题的分类结果。
其中,将试题分类结果可以应用在以题搜题的场景中,比如,获取待分类的目标试题,通过计算该试题与预设试题库中每一试题之间的试题相似度,根据试题相似度,确定目标试题在预设试题库中分类结果,将与目标试题分在同一类的试题都可以认为是该目标试题的相似试题,将相似试题发送至终端进行展示,还可以在预设试题库中去掉与目标试题相似度超过预设相似度阈值的试题,得到候选试题库,这里是因为与目标试题高度相似的试题有可能就和目标试题完全相同。对候选试题库中的试题按照试题相似度进行排序,根据排序结果,确定候选试题库中每一试题的展示顺序,将候选试题库和展示顺序发送至终端,使得终端进行展示,终端展示的以题搜题的页面示意图可以如图6所示,包括获取的目标试题61和搜索到的试题62,还可以通过在页面设置反馈控件,通过反馈控件接收用户的反馈信息,基于用户的反馈信息,对试题的分类结果进行调整或优化。
由以上可知,本实施例服务器在获取待分类的试题后,一方面,可以对试题中的文本内容进行分词处理和特征提取,得到该试题的文本特征;另一方面,还可以对该试题中的公式内容进行标准化处理、切分和特征提取,得到试题的公式特征,最后,再基于文本特征和公式特征,对试题进行分类;可见,该方案在进行试题分类时,不仅考虑了文本内容中的语义相似性,还可以考虑其他非文本内容如公式内容等有效信息,使得试题的试题特征更加准确,因此,可以提升试题分类的准确性。
此外,采用文本-公式联合注意力机制,可以更好的找到公式子串中的关键部分,使得公式特征更加准确,而且,只需试题文本即可,无需更多的额外试题信息,因此,可以提升试题分类和试题搜索的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,还提供一种试题匹配方法包括:
获取待匹配试题,该待匹配试题包括文本内容和公式内容,对文本内容进行特征提取,得到待匹配试题的文本特征,对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合,根据文本内容,对公式子串集合进行特征提取,得到待匹配试题的公式特征,基于文本特征和公式特征,对待匹配试题进行匹配。
例如,以下将以该信息分类方法应用在以题搜题的试题匹配场景为例进行说明。
用户在终端显示的试题页面中触发搜索控件,终端将试题页面上显示的待匹配试题发送至服务器,服务器在待匹配试题中筛选出题干信息,并在题干信息中提取出公式内容,将题干信息中剩下的内容就可以作为文本内容。
服务器一方面对文本内容进行分词和去停用词,得到文本词集合,另一方面,将公式内容中的小写字母替换为a,将大写字母替换为A,将关键符号替换为大写单词,将数字替换为0,将数字与变量的乘积替换为变量本身,将“-”替换为“+”,如果是公式内容中的开头的“-”直接进行删除,得到标准化后的公式内容,将标准后的公式内容中的 [XXX]、{a}、{0}、(a)、(0)、连续的“a”和连续的“A”的部分规定为最小粒度,不切分,将剩下的公式内容按照字符进行切分,得到公式子串集合。
服务器对文本词集合中的文本词采用word2vec(词向量处理模型)进行向量初始化,得到文本词集合中每一文本词对应的文本初始化向量,文本初始化向量的维度为300维,文本词集合的最大长度为200,不足的用0填充,此时文本词集合对应的文本初始化矩阵的维度就可以为200*300。服务器对公式子串集合采用随机初始化方式,得到公式初始化向量,初始公式向量维度为150,公式子串集合的最大长度为200,不足的用0填充,此时,公式子串集合对应的公式初始化矩阵的维度就可以为200*150。
服务器一方面采用self-attention(自注意力网络)对文本初始化向量进行特征提取,得到文本词集合中每一文本词的文本关联特征,根据文本关联特征确定文本词集合中每一文本词对应的文本关联权重,该文本关联权重用于指示文本词之间的关联关系,基于文本关联权重,对文本关联特征进行加权,得到待分类试题的文本特征。另一方面,采用co-attention(交互注意力网络)对公式初始化向量和文本初始化向量进行特征提取,得到公式子串集合中公式子串的公式关联特征和文本词的文本关联特征,根据文本内容中的文本词的文本关联特征,确定公式子串集合中公式子串的公式关联权重,基于公式关联权重,将文本关联特征和公式关联特征进行融合,得到待匹配试题的公式特征。
服务器将文本特征和公式特征进行拼接,从而合并成一个特征矩阵,经过多层卷积之后,生成待匹配试题的试题特征。分别计算待匹配试题的试题特征与预设试题集合中每一试题的试题特征的相似度,得到试题相似度。在预设试题集合中去掉试题相似度超过预设相似度阈值的试题,并根据试题相似度,对预设试题集合中剩下的试题进行排序,得到排序信息。服务器将排序信息和预设试题集合中剩下的试题发送至终端。终端根据排序信息在试题页面显示预设试题集合中剩下的试题。
其中,需要说明的是,本方案中旨在尽可能使用更少的试题信息(只用了题干信息)来解决试题相似度计算的问题,但如果有除了试题题干之外的信息(如:题目质量、题目类型、题目等级、题目地区、题目出处等),也可以用在模型中做多信息融合,从而得到待匹配试题的试题特征。
为了更好地实施以上方法,本发明实施例还提供一种服务器。
例如,如图7所示,该服务器可以包括:获取单元301、文本特征提取单元302、切分单元303、公式特征提取单元304和分类单元305,如下:
获取单元301,用于获取待分类信息,该待分类信息包括文本内容和公式内容;
文本特征提取单元302,用于对文本内容进行特征提取,得到待分类信息的文本特征;
切分单元303,用于对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合;
公式特征提取单元304,用于根据文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征;
分类单元305,用于基于文本特征和公式特征,对待分类信息进行分类。
为了更好地实施以上方法,本发明实施例还提供一种信息分类装置,该信息分类装置可以集成在设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图8所示,该信息分类装置可以包括获取单元401、文本特征提取单元402、切分单元403、公式特征提取单元404和分类单元405,如下:
(1)获取单元401;
获取单元401,用于获取待分类信息,该待分类信息包括文本内容和公式内容;
例如,获取单元401,具体可以直接接收用户通过终端上传的待分类信息,还可以在网络上获取包含文本内容和公式内容的信息作为待分类信息,还可以在信息平台的信息数据库中提取出候选分类信息,对候选分类信息进行检测,将包含文本内容和公式内容的候选分类信息作为待分类信息。当待分类信息的内存较大或者数量较多时,接收终端发送的信息分类请求,在信息分类请求中提取出该存储地址,根据存储地址,在内存或缓存中获取出待分类信息。
(2)文本特征提取单元402;
文本特征提取单元402,用于对文本内容进行特征提取,得到待分类信息的文本特征。
例如,文本特征提取单元402,具体可以用于对文本内容进行分词处理,得到文本词集合,采用训练后分类模型的文本关联网络对文本词集合中的文本词进行特征提取,得到文本词集合中文本词的文本关联特征,根据文本关联特征确定文本词集合中每一文本词对应的文本关联权重,基于文本关联权重,对文本关联特征进行加权,得到待分类信息的文本特征。
(3)切分单元403;
切分单元403,用于对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合。
例如,切分单元403,具体可以用于在公式内容中识别出每一公式字符的字符类型,根据公式字符的字符类型,将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容,在标准化后的公式内容中筛选出第二预设公式字符组对应的公式字符,将筛选出的公式字符进行组合,就可以得到目标公式子串,基于预设切分粒度,将标准后的公式内容中除目标公式子串以外的公式字符进行切分,得到基础公式子串,将目标公式子串与基础公式子串进行融合,得到公式子串集合。
(4)公式特征提取单元404;
公式特征提取单元404,用于根据文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征。
例如,公式特征提取单元404,具体可以用于采用训练后分类模型的公式关联网络对公式子串集合进行特征提取,得到公式子串集合中公式子串的公式关联特征,根据文本内容中的中文本词的文本关联特征,确定公式子串集合中公式子串的公式关联权重,基于公式关联权重,将文本关联特征和公式关联特征进行融合,得到待分类信息的公式特征。
(5)分类单元405;
分类单元405,用于基于文本特征和公式特征,对待分类信息进行分类。
例如,分类单元405,具体可以用于将文本特征和公式特征进行融合,得到待分类信息的信息特征,采用训练后分类模型的分类网络分别计算待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度,基于信息相似度,对待分类信息进行分类。
可选的,信息分类装置还以包括训练单元406,如图9所示,具体可以如下:
训练单元406,用于对预设分类模型进行训练,得到训练后分类模型。
例如,训练单元406,具体可以用于采集信息样本对,该信息样本对包括已标注相似关系的内容对,采用预设分类模型度对信息样本对的相似关系进行预测,得到预测相似关系,根据预测相似关系和标注相似关系对预设分类模型进行收敛,得到训练后分类模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元401获取待分类信息后,一方面,文本特征提取单元402对文本内容进行特征提取,得到待分类信息的文本特征,另一方面,切分单元403对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合,然后,公式特征提取单元404根据文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征,分类单元405基于文本特征和公式特征,对待分类信息进行分类;可见,该方案在进行信息分类时,不仅考虑了文本内容中的语义相似性,还可以考虑其他非文本内容如公式内容等有效信息,使得待分类信息的信息特征更加准确,因此,可以提升信息分类的准确性。
本发明实施例还提供一种设备(也称电子设备),如图10所示,其示出了本发明实施例所涉及的设备的结构示意图,具体来讲:
该设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图10中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该设备的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行设备的各种功能和处理数据,从而对设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取待分类信息,该待分类信息包括文本内容和公式内容,对文本内容进行特征提取,得到待分类信息的文本特征,对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合,根据文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征,基于文本特征和公式特征,对待分类信息进行分类。
例如,设备可以直接接收用户通过终端上传的待分类信息,还可以在网络上获取包含文本内容和公式内容的信息作为待分类信息,还可以在信息平台的信息数据库中提取出候选分类信息,对候选分类信息进行检测,将包含文本内容和公式内容的候选分类信息作为待分类信息。当待分类信息的内存较大或者数量较多时,接收终端发送的信息分类请求,在信息分类请求中提取出该存储地址,根据存储地址,在内存或缓存中获取出待分类信息。对文本内容进行分词处理,得到文本词集合,采用训练后分类模型的文本关联网络对文本词集合中的文本词进行特征提取,得到文本词集合中文本词的文本关联特征,根据文本关联特征确定文本词集合中每一文本词对应的文本关联权重,基于文本关联权重,对文本关联特征进行加权,得到待分类信息的文本特征。在公式内容中识别出每一公式字符的字符类型,根据公式字符的字符类型,将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容,在标准化后的公式内容中筛选出第二预设公式字符组对应的公式字符,将筛选出的公式字符进行组合,就可以得到目标公式子串,基于预设切分粒度,将标准后的公式内容中除目标公式子串以外的公式字符进行切分,得到基础公式子串,将目标公式子串与基础公式子串进行融合,得到公式子串集合。采用训练后分类模型的公式关联网络对公式子串集合进行特征提取,得到公式子串集合中公式子串的公式关联特征,根据文本内容中的中文本词的文本关联特征,确定公式子串集合中公式子串的公式关联权重,基于公式关联权重,将文本关联特征和公式关联特征进行融合,得到待分类信息的公式特征。将文本特征和公式特征进行融合,得到待分类信息的信息特征,采用训练后分类模型的分类网络分别计算待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度,基于信息相似度,对待分类信息进行分类。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在获取待分类信息后,一方面,可以对待分类信息中的文本内容进行分词处理和特征提取,得到该待分类信息的文本特征;另一方,还可以对该待分类信息中的公式内容进行标准化处理、切分和特征提取,得到待分类信息的公式特征,最后,再基于文本特征和公式特征,对待分类信息进行分类;可见,该方案在进行信息分类时,不仅考虑了文本内容中的语义相似性,还可以考虑其他非文本内容如公式内容等有效信息,使得待分类信息的信息特征更加准确,因此,可以提升信息分类的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一存储介质(也称计算机可读存储介质)中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种信息分类方法中的步骤。例如,该指令可以执行如下步骤:
获取待分类信息,该待分类信息包括文本内容和公式内容,对文本内容进行特征提取,得到待分类信息的文本特征,对公式内容进行标准化处理,并对标准化后的公式内容进行切分,得到公式子串集合,根据文本内容,对公式子串集合进行特征提取,得到待分类信息的公式特征,基于文本特征和公式特征,对待分类信息进行分类。
例如,设备可以直接接收用户通过终端上传的待分类信息,还可以在网络上获取包含文本内容和公式内容的信息作为待分类信息,还可以在信息平台的信息数据库中提取出候选分类信息,对候选分类信息进行检测,将包含文本内容和公式内容的候选分类信息作为待分类信息。当待分类信息的内存较大或者数量较多时,接收终端发送的信息分类请求,在信息分类请求中提取出该存储地址,根据存储地址,在内存或缓存中获取出待分类信息。对文本内容进行分词处理,得到文本词集合,采用训练后分类模型的文本关联网络对文本词集合中的文本词进行特征提取,得到文本词集合中文本词的文本关联特征,根据文本关联特征确定文本词集合中每一文本词对应的文本关联权重,基于文本关联权重,对文本关联特征进行加权,得到待分类信息的文本特征。在公式内容中识别出每一公式字符的字符类型,根据公式字符的字符类型,将公式内容中的公式字符替换为标准公式字符,得到标准化后的公式内容,在标准化后的公式内容中筛选出第二预设公式字符组对应的公式字符,将筛选出的公式字符进行组合,就可以得到目标公式子串,基于预设切分粒度,将标准后的公式内容中除目标公式子串以外的公式字符进行切分,得到基础公式子串,将目标公式子串与基础公式子串进行融合,得到公式子串集合。采用训练后分类模型的公式关联网络对公式子串集合进行特征提取,得到公式子串集合中公式子串的公式关联特征,根据文本内容中的中文本词的文本关联特征,确定公式子串集合中公式子串的公式关联权重,基于公式关联权重,将文本关联特征和公式关联特征进行融合,得到待分类信息的公式特征。将文本特征和公式特征进行融合,得到待分类信息的信息特征,采用训练后分类模型的分类网络分别计算待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度,基于信息相似度,对待分类信息进行分类。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种信息分类方法中的步骤,因此,可以实现本发明实施例所提供的任一种信息分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述信息分类方面或者信息搜索方面的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种信息分类方法、试题匹配、设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种信息分类方法,其特征在于,包括:
获取待分类信息,所述待分类信息包括文本内容和公式内容,所述公式内容包括至少一个公式字符,所述公式字符包括变量字符、符号字符、常量字符和运算字符;
对所述文本内容进行分词,得到文本词集合;
采用训练后分类模型的文本关联网络对所述文本词集合中的文本词进行特征提取,得到所述文本词集合中文本词的文本关联特征;
根据所述文本关联特征确定所述文本词集合中每一文本词对应的文本关联权重,所述文本关联权重用于指示文本词集合中文本词之间的关联关系;
基于所述文本关联权重,对所述文本关联特征进行加权,得到所述待分类信息的文本特征;
将所述变量字符替换为标准变量字符,将常量字符替换为标准常量字符,将符号字符的格式进行转换,将所述公式内容中第一预设字符组替换为对应的预设变量字符,对公式内容中预设位置的目标运算字符进行删除,得到标准化后的公式内容;
在所述标准化后的公式内容中筛选出第二预设公式字符组对应的公式字符,并将筛选出的公式字符进行组合,得到目标公式子串;
基于预设切分粒度,将所述标准化后的公式内容中除所述目标公式子串以外的公式字符进行切分,得到基础公式子串;
将所述目标公式子串与基础公式子串进行融合,得到所述公式子串集合;
采用所述训练后分类模型的公式关联网络对所述公式子串集合进行特征提取,得到所述公式子串集合中公式子串的公式关联特征;
根据所述文本内容中的文本词的文本关联特征,确定所述公式子串集合中每一公式子串的公式关联权重,所述公式关联权重用于指示公式子串与文本词之间的映射关系;
基于所述公式关联权重,将所述公式关联特征和文本关联特征进行融合,得到所述待分类信息的公式特征;
基于所述待分类信息的文本特征和公式特征,对所述待分类信息进行分类。
2.根据权利要求1所述的信息分类方法,其特征在于,所述将所述变量字符替换为标准变量字符,将常量字符替换为标准常量字符,将符号字符的格式进行转换,将所述公式内容中第一预设字符组替换为对应的预设变量字符,对公式内容中预设位置的目标运算字符进行删除,得到标准化后的公式内容,包括:
在所述公式内容中识别出每一公式字符的字符类型;
根据所述公式字符的字符类型,将所述变量字符替换为标准变量字符,将常量字符替换为标准常量字符,将符号字符的格式进行转换,将所述公式内容中第一预设字符组替换为对应的预设变量字符,对公式内容中预设位置的目标运算字符进行删除,得到标准化后的公式内容。
3.根据权利要求2所述的信息分类方法,其特征在于,所述将所述变量字符替换为标准变量字符,将常量字符替换为标准常量字符,将符号字符的格式进行转换,将所述公式内容中第一预设字符组替换为对应的预设变量字符,对公式内容中预设位置的目标运算字符进行删除,得到标准化后的公式内容,包括:
读取所述公式内容中的公式字符,得到目标公式字符;
当所述目标公式字符为标准公式字符时,将所述目标公式字符作为所述标准公式字符,得到所述标准化后的公式内容;
当所述目标公式字符为非标准公式字符时,根据所述目标公式字符的字符类型将所述变量字符替换为标准变量字符,将常量字符替换为标准常量字符,将符号字符的格式进行转换,将所述公式内容中第一预设字符组替换为对应的预设变量字符,对公式内容中预设位置的目标运算字符进行删除,得到标准化后的公式内容。
4.根据权利要求3所述的信息分类方法,其特征在于,所述将所述变量字符替换为标准变量字符,将常量字符替换为标准常量字符,将符号字符的格式进行转换,包括:
当所述目标公式字符为变量字符时,在预设标准公式字符集合中筛选出所述变量字符对应的标准变量字符,并将所述目标公式字符替换为所述标准变量字符;
当所述目标公式字符为符号字符时,对所述目标公式字符的格式进行转换,得到转换后公式字符,并将所述目标公式字符替换为所述转换后公式字符;
当所述目标公式字符为常量字符时,在所述预设标准公式字符集合中筛选出所述常量字符对应的标准常量字符,并将所述目标公式字符替换为所述标准常量字符。
5.根据权利要求2所述的信息分类方法,其特征在于,所述将所述公式内容中第一预设字符组替换为对应的预设变量字符,包括:
获取第一预设公式字符组与预设变量字符之间的对应关系;
在所述公式内容中提取出所述第一预设公式字符组,并根据所述对应关系,将所述第一预设公式字符替换为对应的预设变量字符。
6.根据权利要求2所述的信息分类方法,其特征在于,所述对公式内容中预设位置的目标运算字符进行删除,包括:
在所述公式内容中筛选出预设运算字符类型对应的运算字符,得到需要转换的目标运算字符;
当所述目标运算字符在所述公式内容中的位置为预设位置时,将所述目标运算字符进行删除;
当所述目标运算字符在所述公式内容中的位置与预设位置不同时,在预设标准运算字符集合中筛选出标准运算字符,并将所述目标运算字符转换为所述标准运算字符。
7.根据权利要求1所述的信息分类方法,其特征在于,所述基于所述待分类信息的文本特征和公式特征,对所述待分类信息进行分类,包括:
将所述待分类信息文本特征和公式特征进行融合,得到所述待分类信息的信息特征;
采用所述训练后分类模型的分类网络分别计算所述待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度;
基于所述信息相似度,对所述待分类信息进行分类。
8.根据权利要求7所述的信息分类方法,其特征在于,所述采用所述训练后分类模型的分类网络分别计算所述待分类信息的信息特征与预设信息集合中预设信息的信息特征之间的信息相似度之前,还包括:
采集信息样本对,所述信息样本对包括已标记相似关系的信息对;
采用预设分类模型对所述信息样本对的相似关系进行预测,得到预测相似关系;
根据所述预测相似关系和标注相似关系对所述预设分类模型进行收敛,得到所述训练后分类模型。
9.一种试题匹配方法,其特征在于,包括:
获取待匹配试题,所述待匹配试题包括文本内容和公式内容,所述公式内容包括至少一个公式字符,所述公式字符包括变量字符、符号字符、常量字符和运算字符;
对所述文本内容进行分词,得到文本词集合;
采用训练后分类模型的文本关联网络对所述文本词集合中的文本词进行特征提取,得到所述文本词集合中文本词的文本关联特征;
根据所述文本关联特征确定所述文本词集合中每一文本词对应的文本关联权重,所述文本关联权重用于指示文本词集合中文本词之间的关联关系;
基于所述文本关联权重,对所述文本关联特征进行加权,得到所述待匹配试题的文本特征;
将所述变量字符替换为标准变量字符,将常量字符替换为标准常量字符,将符号字符的格式进行转换,将所述公式内容中第一预设字符组替换为对应的预设变量字符,对公式内容中预设位置的目标运算字符进行删除,得到标准化后的公式内容;
在所述标准化后的公式内容中筛选出第二预设公式字符组对应的公式字符,并将筛选出的公式字符进行组合,得到目标公式子串;
基于预设切分粒度,将所述标准化后的公式内容中除所述目标公式子串以外的公式字符进行切分,得到基础公式子串;
将所述目标公式子串与基础公式子串进行融合,得到所述公式子串集合;
采用所述训练后分类模型的公式关联网络对所述公式子串集合进行特征提取,得到所述公式子串集合中公式子串的公式关联特征;
根据所述文本内容中的文本词的文本关联特征,确定所述公式子串集合中每一公式子串的公式关联权重,所述公式关联权重用于指示公式子串与文本词之间的映射关系;
基于所述公式关联权重,将所述公式关联特征和文本关联特征进行融合,得到所述待匹配试题的公式特征;
基于所述待匹配试题的文本特征和公式特征,对所述待匹配试题进行匹配。
10.一种服务器,其特征在于,包括:
获取单元,用于获取待分类信息,所述待分类信息包括文本内容和公式内容,所述公式字符包括至少一个公式字符,所述公式字符包括变量字符、符号字符、常量字符和运算字符;
文本特征提取单元,用于对所述文本内容进行分词,得到文本词集合,采用训练后分类模型的文本关联网络对所述文本词集合中的文本词进行特征提取,得到所述文本词集合中文本词的文本关联特征,根据所述文本关联特征确定所述文本词集合中每一文本词对应的文本关联权重,所述文本关联权重用于指示文本词集合中文本词之间的关联关系,基于所述文本关联权重,对所述文本关联特征进行加权,得到所述待分类信息的文本特征;
切分单元,用于将所述变量字符替换为标准变量字符,将常量字符替换为标准常量字符,将符号字符的格式进行转换,将所述公式内容中第一预设字符组替换为对应的预设变量字符,对公式内容中预设位置的目标运算字符进行删除,得到标准化后的公式内容,在所述标准化后的公式内容中筛选出第二预设公式字符组对应的公式字符,并将筛选出的公式字符进行组合,得到目标公式子串,基于预设切分粒度,将所述标准化后的公式内容中除所述目标公式子串以外的公式字符进行切分,得到基础公式子串,将所述目标公式子串与基础公式子串进行融合,得到所述公式子串集合;
公式特征提取单元,用于采用所述训练后分类模型的公式关联网络对所述公式子串集合进行特征提取,得到所述公式子串集合中公式子串的公式关联特征,根据所述文本内容中的文本词的文本关联特征,确定所述公式子串集合中每一公式子串的公式关联权重,所述公式关联权重用于指示公式子串与文本词之间的映射关系,基于所述公式关联权重,将所述公式关联特征和文本关联特征进行融合,得到所述待分类信息的公式特征;
分类单元,用于基于所述待分类信息的文本特征和公式特征,对所述待分类信息进行分类。
11.一种设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至8任一项所述的信息分类方法或权利要求9所述的试题匹配方法中的步骤。
12.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的信息分类方法或者权利要求9所述的试题匹配方法中的步骤。
CN202110503793.9A 2021-05-10 2021-05-10 信息分类方法、试题分类方法、设备、服务器和存储介质 Active CN112989058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110503793.9A CN112989058B (zh) 2021-05-10 2021-05-10 信息分类方法、试题分类方法、设备、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110503793.9A CN112989058B (zh) 2021-05-10 2021-05-10 信息分类方法、试题分类方法、设备、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN112989058A CN112989058A (zh) 2021-06-18
CN112989058B true CN112989058B (zh) 2021-09-07

Family

ID=76337348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110503793.9A Active CN112989058B (zh) 2021-05-10 2021-05-10 信息分类方法、试题分类方法、设备、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN112989058B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449487A (zh) * 2021-06-30 2021-09-28 未鲲(上海)科技服务有限公司 公式识别方法、装置、终端设备及存储介质
CN114282531B (zh) * 2021-08-24 2024-06-14 腾讯科技(深圳)有限公司 一种题目检测方法、装置、电子设备和存储介质
CN114048354B (zh) * 2022-01-10 2022-04-26 广州启辰电子科技有限公司 基于多元表征和度量学习的试题检索方法、装置及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796160A (zh) * 2019-09-16 2020-02-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685137A (zh) * 2018-12-24 2019-04-26 上海仁静信息技术有限公司 一种题目分类方法、装置、电子设备及存储介质
CN110362723B (zh) * 2019-05-31 2022-06-21 平安国际智慧城市科技股份有限公司 一种题目特征表示方法、装置及存储介质
CN110390019A (zh) * 2019-07-26 2019-10-29 江苏曲速教育科技有限公司 一种试题的聚类方法、去重方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796160A (zh) * 2019-09-16 2020-02-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置和存储介质

Also Published As

Publication number Publication date
CN112989058A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN111897970B (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN112989058B (zh) 信息分类方法、试题分类方法、设备、服务器和存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN111507350B (zh) 一种文本识别方法和装置
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN109582963A (zh) 一种基于极限学习机的档案自动分类方法
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
CN115577698A (zh) 一种基于机器学习的数据和文本处理系统及其方法
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
CN111767404A (zh) 一种事件挖掘方法和装置
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045865

Country of ref document: HK