CN113672694A - 一种文本处理方法、终端以及存储介质 - Google Patents
一种文本处理方法、终端以及存储介质 Download PDFInfo
- Publication number
- CN113672694A CN113672694A CN202010401112.3A CN202010401112A CN113672694A CN 113672694 A CN113672694 A CN 113672694A CN 202010401112 A CN202010401112 A CN 202010401112A CN 113672694 A CN113672694 A CN 113672694A
- Authority
- CN
- China
- Prior art keywords
- text
- sequence
- scored
- token
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims description 81
- 238000012512 characterization method Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本处理方法、终端及存储介质,所述文本处理方法包括:获取待评分文本,根据所述待评分文本获取所述待评分文本对应的预设文本;根据预设的关键字符串集合获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列;根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分。本发明在对待评分文本进行评分时,结合了关键字符串进行评分,提升了评分的准确性。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种文本处理方法、终端以及存储介质。
背景技术
随着自然语言处理(NLP,Natural Language Processing)技术的快速发展,NLP在各行各业中落地的场景越来越多,其中就包括答案评分,目前有多种用于答案评分的模型,然而,现有的用于答案评分的模型只是单纯的对比用户答案文本和标准答案文本,根据用户答案文本和标准答案文本的相似性进行评分,这种评分方式的准确性还有待提高。
因此,现有技术还有待改进和提高。
发明内容
本发明提供一种文本处理方法、终端及存储介质,旨在解决现有技术中单纯进行文本比对造成的评分准确性低的问题。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种文本处理方法,其中,所述文本处理方法包括:
获取待评分文本,根据所述待评分文本获取所述待评分文本对应的预设文本;
根据预设的关键字符串集合获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列;
根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分。
所述的文本处理方法,其中,所述根据预设的关键字符串集合获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列包括:
分别获取所述待评分文本对应的第一字符串序列和所述预设文本对应的第二字符串序列;
根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列,其中,所述第三表征序列包括所述第一字符串序列中各个第一字符串分别对应的各个第三表征,所述第四表征序列中包括所述第二字符串序列中各个第二字符串分别对应的各个第四表征;
根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行处理,获取所述第一表征序列和所述第二表征序列。
所述的文本处理方法,其中,所述根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列包括:
根据所述评分模型分别对所述待评分文本和所述预设文本进行分词,获取所述待评分文本对应的第一分词序列和所述预设文本对应的第二分词序列;
分别根据所述第一分词序列和所述第二分词序列获取所述待评分文本对应的第三表征序列以及所述预设文本对应的第四表征序列。
所述的文本处理方法,其中,所述根据所述评分模型分别对所述待评分文本和所述预设文本进行分词,获取所述待评分文本对应的第一分词序列和所述预设文本对应的第二分词序列包括:
分别将所述待评分文本和所述预设文本输入至所述评分模型的第一网络层,获取所述第一网络层输出的所述第一分词序列和所述第二分词序列。
所述的文本处理方法,其中,所述分别根据所述第一分词序列和所述第二分词序列获取所述待评分文本对应的第三表征序列以及所述预设文本对应的第四表征序列包括:
分别将所述第一分词序列和所述第二分词序列输入至所述评分模型的第二网络层,获取所述第二网络层输出的所述第三表征序列以及所述第四表征序列。
所述的文本处理方法,其中,所述根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行处理,获取所述第一表征序列和所述第二表征序列包括:
根据所述关键字符串集合分别对所述各个第一字符串和所述各个第二字符串进行标注;
将标注后的所述第一字符串序列和标注后的所述第二字符串序列输入至所述评分模型中的第三网络层,获取所述第三网络层输出的第五表征序列和第六表征序列,其中,所述第五表征序列包括所述各个第一字符串分别对应的各个第五表征,所述第六表征序列包括所述各个第二字符串分别对应的各个第六表征;
根据所述第五表征序列对所述第三表征序列进行处理,获取所述第一表征序列,根据所述第六表征序列对所述第四表征序列进行处理,获取所述第二表征序列。
所述的文本处理方法,其中,所述根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分包括:
将所述第一表征序列和所述第二表征序列输入至所述评分模型的第四网络层,获取所述第四网络层输出的所述评分。
所述的文本处理方法,其中,所述评分模型是根据多组样本数据训练的,每组样本数据包括样本待评分文本、样本关键字符串集合、样本预设文本以及所述样本待评分文本相对于所述样本预设文本的评分。
一种终端,其中,所述终端包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令,所述处理器适于调用所述存储介质中的指令,以执行实现上述文本处理方法的步骤。
一种存储介质,其中,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述文本处理方法的步骤。
有益效果:与现有技术相比,本发明提供了一种文本处理方法、终端及存储介质,所述文本处理方法通过预设关键字符串集合,在对待评分文本进行评分时,在获取到待评分文本和预设文本分别对应表征序列后,根据预设关键字符串对表征序列进行处理,获得反映了待评分文本和预设文本包含关键字符串的情况的表征序列,并根据处理后的表征序列来获取待评分文本相对于预设文本的评分,本发明在对待评分文本进行评分时,结合了关键字符串进行评分,提升了评分的准确性。
附图说明
图1为本发明提供的文本处理方法的实施例的流程图;
图2为现有技术中文本处理方法的示意图;
图3为本发明提供的文本处理方法的实施例中的子步骤流程图一;
图4为本发明提供的文本处理方法中评分模型的框架图;
图5为本发明提供的文本处理方法的实施例中的子步骤流程图二;
图6为本发明提供的文本处理方法的实施例中的子步骤流程图三;
图7为本发明提供的终端的实施例的结构原理图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供的一种文本处理方法,是可以应用在终端中,终端可以但不限于是各种个人计算机、笔记本电脑、手机、平板电脑、车载电脑和便携式可穿戴设备。所述终端在获取到待评分文本后,可以根据所述文本处理方法对待评分文本进行处理。
实施例一
请参照图1,图1为本发明提供的文本处理方法的一个实施例的流程图。所述文本处理方法包括步骤:
S110、获取待评分文本,根据所述待评分文本获取所述待评分文本对应的预设文本。
在本实施例中,对待评分文本进行评分是获取所述待评分文本相对于预设文本的评分,具体地,本发明提供的文本处理方法是可以应用于答案评分的场景中,对于一个问题,用户或者智能终端会提供一个答案,通过本发明提供的文本处理方法可以对用户或者智能终端提供的答案进行评分,本实施例中的所述待评分文本就是用户或者智能终端提供的答案对应的文本。所述待评分文本可以是用户直接输入的文本,也可以是接收用户的语音转换得到的文本,所述预设文本是根据问题预先设置的标准答案,在获取所述待评分文本后,根据所述待评分文本针对的问题获取相应的所述预设文本。通过对所述待评分文本和所述预设文本的比较,可以得到所述待评分文本相对于所述预设文本的评分。
S200、根据预设的关键字符串获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列。
在现有技术中,通过将所述待评分文本和所述预设文本分为多个子词,输入至预设的NLP模型,如图2中示出的ALBERT(A Lite BERT)模型,获取模型输出的各个子词的表征,进而得到所述待评分文本和所述预设文本的相似性数值,获取到所述待评分文本相对于所述预设文本的评分。而这种方法只是单纯地进行所述待评分文本和所述预设文本的各个子词的比较,准确性不高,在本实施例中,结合关键字符串来对获取所述待评分文本相对于所述预设文本的评分,所述关键字符串集合包括至少一个关键字符串,所述关键字符串是能够反映所述预设文本中的核心语义的一个完整单词,预先获取各个关键字符串,生成所述关键字符串集合,根据所述关键字符串集合每次获取所述待评分文本相对于一个所述预设文本的评分。
具体地,如图3所示,所述根据预设的关键字符串获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列包括:
S210、分别获取所述待评分文本对应的第一字符串序列和所述预设文本对应的第二字符串序列。
具体地,所述第一字符串序列中包括至少一个第一字符串,所述第二字符串序列中包括至少一个第二字符串,每个所述第一字符串是所述待评分文本中包括的完整单词,每个所述第二字符串是所述预设文本中包括的完整单词。在本实施例中,是结合所述关键字符串来获取所述待评分文本相对于所述预设文本的评分,而每个关键字符串是完整的单词,因此,先将所述待评分文本和所述预设文本分成一个个完整的单词,再获取所述待评分文本和所述预设文本中每个完整的单词对应的表征。例如,所述待评分文本为“I amworking”,那么,所述待评分文本中包括的所述第一字符串有:“I”、“am”和“working”,所述第一字符串序列可以为“I”“am”“working”,所述待评分文本为“他很开心”,所述待评分文本中包括的所述第一字符串有:“他”、“很”、“开心”,所述第一字符串序列可以为“他”“很”“开心”。所述第一字符串序列中的各个第一字符串按在所述待评分文本中的顺序排列,所述第二字符串序列中的各个第二字符串按在所述预设文本中的顺序排列。所述第一字符串和所述第二字符串可以是根据预先设置的分词器得到,对于英文文本来说,由于英文中各个完整的单词是由空格隔开的,那么,预先设置的分词器只需要检测所述待评分文本和所述预设文本中的空格,就可以获取到所述第一字符串序列和所述第二字符串序列,而对于中文来说,预先设置的分词器可以是现有技术中的中文分词器,例如结巴分词工具、清华大学THULAC(THU Lexical Analyzer for Chinese)分词工具等。
S220、根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列。
所述第三表征序列包括所述第一字符串序列中各个第一字符串分别对应的各个第三表征,所述第四表征序列中包括所述第二字符串序列中各个第二字符串分别对应的各个第四表征,其中,表征是文本的数值化表示,词的表征反映了词的语义,表征可以为向量或者矩阵。所述评分模型为预先训练完成的用于获取所述待评分文本相对于所述预设文本的评分的模型,所述评分模型的结构示意图可以如图4所示,所述评分模型包括多个网络层,在后文中将根据本实施例提供的所述文本处理方法的各个步骤对所述评分模型的各个网络层进行说明。
如图5所示,所述根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列包括:
S221、根据所述评分模型分别对所述待评分文本和所述预设文本进行分词,获取所述待评分文本对应的第一分词序列和所述预设文本对应的第二分词序列。
在一种可能的方式中,所述第一分词序列和所述第一字符串序列相同,所述第二分词序列和所述第二字符串序列相同,也就是说,采用与获取所述第一字符串序列和所述第二字符串序列相同的方式获取所述第一分词序列和所述第二分词序列或者直接获取所述第一字符串序列作为所述第一分词序列,直接获取所述第二字符串序列作为所述第二分词序列。而由于英文的语言特性,在英文中有大量词形的变化,比如由于时态的不同,单词词形发生变化,随着NLP技术的发展,采用子词(subword)分词机制的语义分析网络模型也成为一种新的趋势,很多中文语义分析模型也开始采取分字(字也可看做是子词)的方式来代替分词,子词分词机制是指在对文本进行分词时,并不是以完整的单词为单位,而是以子词(比完整单词更小的具有语义的单位)为单位进行分词的,例如,对于文本“I amworking”,基于子词分词机制的分词结果可能为“I”“am”“work”“ing”,并且在实践中,基于子词分词机制的语义表征提取模型在很多情况下具有更好的效果,在本实施例的另一中可能实现的方式中,可以采用子词分词机制的网络模型框架来获取所述第三表征序列和所述第四表征序列。在这种实现方式中,所述根据所述评分模型分别对所述待评分文本和所述预设文本进行分词,获取所述待评分文本对应的第一分词序列和所述预设文本对应的第二分词序列包括:
分别将所述待评分文本和所述预设文本输入至所述评分模型的第一网络层,获取所述第一网络层输出的所述第一分词序列和所述第二分词序列。
如图4所示,所述评分模型包括第一网络层,所述第一网络层用于对所述待评分文本和所述预设文本进行分词,获取所述第一分词序列和所述第二分词序列,所述第一网络层可以是基于现有的子词分词算法来构建,如BPE(Byte Pair Encoding)法、WordPiece法等。在构建完成后通过对所述评分模型进行整体训练来使得所述第一网络层得到训练。
请再次参阅图5,在获取所述第一分词序列和所述第二分词序列之后,所述根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列还包括:
S222、分别根据所述第一分词序列和所述第二分词序列获取所述待评分文本对应的第三表征序列以及所述预设文本对应的第四表征序列。
如图4所示,所述评分模型包括用于获取所述第三表征序列和所述第四表征序列的第二网络层,所述分别根据所述第一分词序列和所述第二分词序列获取所述待评分文本对应的第三表征序列以及所述预设文本对应的第四表征序列包括:
分别将所述第一分词序列和所述第二分词序列输入至所述评分模型的第二网络层,获取所述第二网络层输出的所述第三表征序列以及所述第四表征序列。
具体地,所述第二网络层是根据获取所述第一分词序列和所述第二分词序列时使用的分词机制来确定,若所述第一分词序列和所述第二分词序列是基于子词分词机制获取的,那么所述第二网络层是基于子词分词机制的语义分析网络层,若所述第一分词序列和所述第二分词序列是基于完整单词分词机制获取的,那么,所述第二网络层是基于完整单词分词机制的语义分析网络层。所述第二网络层可以是根据现有的语义分析模型来构建,例如BERT(Bidirectional Encoder Representation from Transformers)、ALBERT(ALite BERT)等模型。在构建完成后通过对所述评分模型进行整体训练来使得所述第二网络层得到训练。
值得说明的是,由于所述第三表征序列包括所述第一字符串序列中各个第一字符串分别对应的各个第三表征,所述第四表征序列中包括所述第二字符串序列中各个第二字符串分别对应的各个第四表征,也就是说,所述各个第三表征和所述各个第四表征是完整单词的表征,那么,在所述第一分词序列和所述第二分词序列是基于子词分词机制获取的情况下,所述第二网络层中应包括两个子层,如图4所示,分别是表征获取子层和表征结合子层,所述表征获取子层用于获取各个子词分别对应的各个表征,所述表征结合子层用于将属于一个完整单词的子词的表征结合起来,形成完整单词的表征。例如,所述第一分词序列为“I”“am”“work”“ing”,那么,所述表征获取子层输出“I”“am”“work”“ing”分别对应的四个表征,再将这四个表征输入至所述表征结合子层,得到“I”“am”“working”分别对应的三个表征。所述表征获取子层可以是根据现有的语义分析模型来构建,所述表征结合子层可以是一层卷积层。
请再次参阅图3,所述根据预设的关键字符串集合获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列包括:
S230、根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行处理,获取所述第一表征序列和所述第二表征序列。
从前面的说明不难看出,所述第三表征序列和所述第四表征序列分别是反映了所述待评分文本和所述预设文本的语义的表征序列,在本实施例中,为了更准确地获得所述待评分文本相对于所述预设文本的评分,根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行进一步处理。
具体地,如图6所示,所述根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行处理,获取所述第一表征序列和所述第二表征序列包括:
S231、根据所述关键字符串集合分别对所述各个第一字符串和所述各个第二字符串进行标注。
在获取到所述第一字符串序列和所述第二字符串序列后,根据所述关键字符串集合分别对所述各个第一字符串和所述各个第二字符串进行标注,具体地,是根据所述各个第一字符串和所述各个第二字符串是否为所述关键字符串集合中的字符串来进行标注。例如,所述关键字符串集合为{I,working},所述第一字符串序列为“I”“am”“working”,那么对所述第一字符串序列标注为“yes”“no”“yes”,当然以上是举例而已,进行标注时可以使用其他的标注符号。
S232、将标注后的所述第一字符串序列和标注后的所述第二字符串序列输入至所述评分模型中的第三网络层,获取所述第三网络层输出的第五表征序列和第六表征序列。
所述第五表征序列包括所述各个第一字符串分别对应的各个第五表征,所述第六表征序列包括所述各个第二字符串分别对应的各个第六表征。如图4所示,所述评分模型中包括用于获取所述第五表征序列和所述第六表征序列的第三网络层,将进行了关键字符串标注的所述第一字符串序列和所述第二字符串序列输入至所述第三网络层,所述第三网络层输出所述第五表征序列和所述第六表征序列。所述第三网络层可以根据现有的自然语言处理模型来构建,如BiLSTM(Bi-directional Long Short-Term Memory)等,在构建完成后通过对所述评分模型进行整体训练来使得所述第三网络层得到训练。
S233、根据所述第五表征序列对所述第三表征序列进行处理,获取所述第一表征序列,根据所述第六表征序列对所述第四表征序列进行处理,获取所述第二表征序列。
不难看出,由于所述第五表征序列和所述第六表征序列分别是根据进行了关键字符串标注后的所述第一字符串和所述第二字符串得到的,也就是说,所述第五表征序列和所述第六表征序列中的表征是增加了关键字符串权重的表征,在本实施例中,根据所述第五表征序列对所述第三表征序列进行处理,对所述第六表征序列对所述第四表征序列进行处理,得到所述第一表征序列和所述第二表征序列,这样,所述第一表征序列和所述第二表征序列中的表征就反映了所述待评分文本和所述预设文本中的关键字符串的情况,根据所述第一表征序列和所述第二表征序列获取的所述待评分文本相对于所述预设文本的评分会更准确。
具体地,所述根据所述第五表征序列对所述第三表征序列进行处理,可以是将所述第五表征序列和所述第三表征序列进行简单地连接,或者进行相加等运算,得到所述第一表征序列,同样地,所述所述第六表征序列对所述第四表征序列进行处理,获取所述第二表征序列也可以是将所述第五表征序列和所述第三表征序列进行简单地连接,或者进行相加等运算。
请再次参阅图1,所述文本处理方法还包括:
S300、根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分。
在本实施例中,是通过所述评分模型中的第四网络层获取所述评分的,具体地,所述根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分包括:
将所述第一表征序列和所述第二表征序列输入至所述评分模型的第四网络层,获取所述第四网络层输出的所述评分。
如图4所示,所述评分模型包括用于输出评分的第四网络层,所述第四网络层是常规神经网络中的全连接层,所述第四网络层经过训练后能够实现根据输入的所述第一表征序列和所述第二表征序列输出评分数值,所述第四网络层构建完成后通过对所述评分模型进行整体训练来使得所述第三网络层得到训练。
从上面的说明可以看出,在本发明中,通过分别构建所述第一网络层、所述第二网络层、所述第三网络层以及所述第四网络层来构建所述评分模型,在构建完成所述评分模型后,通过对所述评分模型进行整体训练,实现对所述评分模型中各个网络层的训练,下面对所述评分模型的训练过程进行说明。
具体地,所述评分模型是根据多组样本数据训练的,每组样本数据包括样本待评分文本、样本关键字符串集合、样本预设文本以及样本评分。所述样本评分是预先标注的样本待评分文本相对于所述样本预设文本的评分,可以根据自行设定的评分标注来设置所述样本评分,例如,0表示样本待评分文本和样本预设文本的含义没有重叠,1表示样本待评分文本和样本预设文本不等价,但在主题上相互关联,5表示样本待评分文本和样本预设文本语义完全相同等。当然,本领域技术人员也可以根据不同的评分标注设置不同的所述样本评分,在一种可能的实现方式中,对于每组样本待评分文本和样本预设文本,可以采用多人评分取平均值的方式设置所述样本评分。
在对所述评分模型进行训练时,将每组样本数据中的样本待评分文本、样本关键字符串集合、样本预设文本输入至所述评分模型,获取所述评分模型输出的评分,并将所述评分模型输出的评分与对应的样本评分进行比较,确定所述评分模型是否训练完成,具体地,可以设置当所述评分模型输出的评分与对应的样本评分的差异在预设值以下时,确定所述评分模型已训练完成,在一种可能的实现方式中,所述评分模型输出的评分与对应的样本评分的差异可以通过目标函数来评价,其中,yi为第i组样本数据中的样本评分,为所述评分模型根据第i组样本数据输出的评分,当MSE小于预设值时,确定所述评分模型已训练完成。在所述评分模型训练完成后,所述评分模型中的所述第一网络层、所述第二网络层、所述第三网络层、所述第四网络层也得到了训练,也就是说,训练后的所述评分模型中的第一网络层、第二网络层、第三网络层和第四网络层的输出能够保证所述评分模型输出的评分的准确性。
在一种可能的实现方式中,所述待评分文本可以与多个对应的预设文本,也就是说,所述待评分文本对应的问题可以设置多个标准答案,所述文本处理方法还包括:
获取所述待评分文本相对于多个所述预设文本的多个评分,根据所述多个评分获取所述待评分文本的最终评分。
具体地,是可以将所述待评分文本分别与各个预设文本进行S100-S300的步骤,获取所述待评分文本分别相对于各个预设文本的各个评分,最后去各个评分中的最大值或平均值作为所述待评分文本内的最终评分。
综上所述,本发明提供一种文本处理方法,所述文本处理方法通过预设关键字符串集合,在对待评分文本进行评分时,在获取到待评分文本和预设文本分别对应表征序列后,根据预设关键字符串对表征序列进行处理,获得反映了待评分文本和预设文本包含关键字符串的情况的表征序列,并根据处理后的表征序列来获取待评分文本相对于预设文本的评分,本发明中对待评分文本进行评分时,结合了关键字符串进行评分,提升了评分的准确性。
应该理解的是,虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例二
基于上述实施例,本发明还提供了一种终端,其原理框图可以如图7所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该终端的温度传感器是预先在终端内部设置,用于检测内部设备的当前运行温度。
本领域技术人员可以理解,图7中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时至少可以实现以下步骤:
获取待评分文本,根据所述待评分文本获取所述待评分文本对应的预设文本;
根据预设的关键字符串集合获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列;
根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分。
其中,所述根据预设的关键字符串集合获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列包括:
分别获取所述待评分文本对应的第一字符串序列和所述预设文本对应的第二字符串序列;
根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列,其中,所述第三表征序列包括所述第一字符串序列中各个第一字符串分别对应的各个第三表征,所述第四表征序列中包括所述第二字符串序列中各个第二字符串分别对应的各个第四表征;
根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行处理,获取所述第一表征序列和所述第二表征序列。
其中,所述根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列包括:
根据所述评分模型分别对所述待评分文本和所述预设文本进行分词,获取所述待评分文本对应的第一分词序列和所述预设文本对应的第二分词序列;
分别根据所述第一分词序列和所述第二分词序列获取所述待评分文本对应的第三表征序列以及所述预设文本对应的第四表征序列。
其中,所述根据所述评分模型分别对所述待评分文本和所述预设文本进行分词,获取所述待评分文本对应的第一分词序列和所述预设文本对应的第二分词序列包括:
分别将所述待评分文本和所述预设文本输入至所述评分模型的第一网络层,获取所述第一网络层输出的所述第一分词序列和所述第二分词序列。
其中,所述分别根据所述第一分词序列和所述第二分词序列获取所述待评分文本对应的第三表征序列以及所述预设文本对应的第四表征序列包括:
分别将所述第一分词序列和所述第二分词序列输入至所述评分模型的第二网络层,获取所述第二网络层输出的所述第三表征序列以及所述第四表征序列。
其中,所述根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行处理,获取所述第一表征序列和所述第二表征序列包括:
根据所述关键字符串集合分别对所述各个第一字符串和所述各个第二字符串进行标注;
将标注后的所述第一字符串序列和标注后的所述第二字符串序列输入至所述评分模型中的第三网络层,获取所述第三网络层输出的第五表征序列和第六表征序列,其中,所述第五表征序列包括所述各个第一字符串分别对应的各个第五表征,所述第六表征序列包括所述各个第二字符串分别对应的各个第六表征;
根据所述第五表征序列对所述第三表征序列进行处理,获取所述第一表征序列,根据所述第六表征序列对所述第四表征序列进行处理,获取所述第二表征序列。
其中,所述根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分包括:
将所述第一表征序列和所述第二表征序列输入至所述评分模型的第四网络层,获取所述第四网络层输出的所述评分。
其中,所述评分模型是根据多组样本数据训练的,每组样本数据包括样本待评分文本、样本关键字符串集合、样本预设文本以及所述样本待评分文本相对于所述样本预设文本的评分。
实施例三
本发明还提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例一所述的文本处理方法的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本处理方法,其特征在于,所述文本处理方法包括:
获取待评分文本,根据所述待评分文本获取所述待评分文本对应的预设文本;
根据预设的关键字符串集合获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列;
根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分。
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据预设的关键字符串集合获取所述待评分文本对应的第一表征序列和所述预设文本对应的第二表征序列包括:
分别获取所述待评分文本对应的第一字符串序列和所述预设文本对应的第二字符串序列;
根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列,其中,所述第三表征序列包括所述第一字符串序列中各个第一字符串分别对应的各个第三表征,所述第四表征序列中包括所述第二字符串序列中各个第二字符串分别对应的各个第四表征;
根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行处理,获取所述第一表征序列和所述第二表征序列。
3.根据权利要求2所述的文本处理方法,其特征在于,所述根据预先训练完成的评分模型获取所述待评分文本对应的第三表征序列和所述预设文本对应的第四表征序列包括:
根据所述评分模型分别对所述待评分文本和所述预设文本进行分词,获取所述待评分文本对应的第一分词序列和所述预设文本对应的第二分词序列;
分别根据所述第一分词序列和所述第二分词序列获取所述待评分文本对应的第三表征序列以及所述预设文本对应的第四表征序列。
4.根据权利要求3所述的文本处理方法,其特征在于,所述根据所述评分模型分别对所述待评分文本和所述预设文本进行分词,获取所述待评分文本对应的第一分词序列和所述预设文本对应的第二分词序列包括:
分别将所述待评分文本和所述预设文本输入至所述评分模型的第一网络层,获取所述第一网络层输出的所述第一分词序列和所述第二分词序列。
5.根据权利要求3所述的文本处理方法,其特征在于,所述分别根据所述第一分词序列和所述第二分词序列获取所述待评分文本对应的第三表征序列以及所述预设文本对应的第四表征序列包括:
分别将所述第一分词序列和所述第二分词序列输入至所述评分模型的第二网络层,获取所述第二网络层输出的所述第三表征序列以及所述第四表征序列。
6.根据权利要求2所述的文本处理方法,其特征在于,所述根据所述关键字符串集合分别对所述第三表征序列和所述第四表征序列进行处理,获取所述第一表征序列和所述第二表征序列包括:
根据所述关键字符串集合分别对所述各个第一字符串和所述各个第二字符串进行标注;
将标注后的所述第一字符串序列和标注后的所述第二字符串序列输入至所述评分模型中的第三网络层,获取所述第三网络层输出的第五表征序列和第六表征序列,其中,所述第五表征序列包括所述各个第一字符串分别对应的各个第五表征,所述第六表征序列包括所述各个第二字符串分别对应的各个第六表征;
根据所述第五表征序列对所述第三表征序列进行处理,获取所述第一表征序列,根据所述第六表征序列对所述第四表征序列进行处理,获取所述第二表征序列。
7.根据权利要求2所述的文本处理方法,其特征在于,所述根据所述第一表征序列和所述第二表征序列获取所述待评分文本相对于所述预设文本的评分包括:
将所述第一表征序列和所述第二表征序列输入至所述评分模型的第四网络层,获取所述第四网络层输出的所述评分。
8.根据权利要求2-7任一项所述的文本处理方法,其特征在于,所述评分模型是根据多组样本数据训练的,每组样本数据包括样本待评分文本、样本关键字符串集合、样本预设文本以及所述样本待评分文本相对于所述样本预设文本的评分。
9.一种终端,其特征在于,所述终端包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令,所述处理器适于调用所述存储介质中的指令,以执行实现如权利要求1-8任一项所述的文本处理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任一项所述的文本处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010401112.3A CN113672694A (zh) | 2020-05-13 | 2020-05-13 | 一种文本处理方法、终端以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010401112.3A CN113672694A (zh) | 2020-05-13 | 2020-05-13 | 一种文本处理方法、终端以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113672694A true CN113672694A (zh) | 2021-11-19 |
Family
ID=78536939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010401112.3A Pending CN113672694A (zh) | 2020-05-13 | 2020-05-13 | 一种文本处理方法、终端以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113672694A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670168A (zh) * | 2018-11-14 | 2019-04-23 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN110059318A (zh) * | 2019-04-18 | 2019-07-26 | 广西师范大学 | 基于维基百科与WordNet的论述题自动评卷方法 |
CN110309503A (zh) * | 2019-05-21 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 |
CN110413730A (zh) * | 2019-06-27 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度检测方法、装置、计算机设备和存储介质 |
CN110413961A (zh) * | 2019-06-21 | 2019-11-05 | 平安国际智慧城市科技股份有限公司 | 基于分类模型进行文本评分的方法、装置和计算机设备 |
CN110413741A (zh) * | 2019-08-07 | 2019-11-05 | 山东山大鸥玛软件股份有限公司 | 一种面向主观题的智能阅卷方法 |
CN110543557A (zh) * | 2019-09-06 | 2019-12-06 | 北京工业大学 | 一种基于注意力机制的医疗智能问答系统的构建方法 |
CN110796160A (zh) * | 2019-09-16 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置和存储介质 |
-
2020
- 2020-05-13 CN CN202010401112.3A patent/CN113672694A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670168A (zh) * | 2018-11-14 | 2019-04-23 | 华南师范大学 | 基于特征学习的短答案自动评分方法、系统及存储介质 |
CN110059318A (zh) * | 2019-04-18 | 2019-07-26 | 广西师范大学 | 基于维基百科与WordNet的论述题自动评卷方法 |
CN110309503A (zh) * | 2019-05-21 | 2019-10-08 | 昆明理工大学 | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 |
CN110413961A (zh) * | 2019-06-21 | 2019-11-05 | 平安国际智慧城市科技股份有限公司 | 基于分类模型进行文本评分的方法、装置和计算机设备 |
CN110413730A (zh) * | 2019-06-27 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度检测方法、装置、计算机设备和存储介质 |
CN110413741A (zh) * | 2019-08-07 | 2019-11-05 | 山东山大鸥玛软件股份有限公司 | 一种面向主观题的智能阅卷方法 |
CN110543557A (zh) * | 2019-09-06 | 2019-12-06 | 北京工业大学 | 一种基于注意力机制的医疗智能问答系统的构建方法 |
CN110796160A (zh) * | 2019-09-16 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN115438166A (zh) | 基于关键词和语义的搜索方法、装置、设备及存储介质 | |
CN110866098B (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
WO2021204017A1 (zh) | 文本意图识别方法、装置以及相关设备 | |
WO2023045605A1 (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN113177412A (zh) | 基于bert的命名实体识别方法、系统、电子设备及存储介质 | |
CN114661861B (zh) | 文本匹配方法及装置、存储介质、终端 | |
CN113836192B (zh) | 平行语料的挖掘方法、装置、计算机设备及存储介质 | |
CN113673225A (zh) | 中文句子相似性判别方法、装置、计算机设备和存储介质 | |
CN115525757A (zh) | 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法 | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
CN112668343A (zh) | 文本重写方法以及电子设备、存储装置 | |
CN113012685A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN113672694A (zh) | 一种文本处理方法、终端以及存储介质 | |
CN116030794A (zh) | 听后问答评分方法、装置、终端及可读存储介质 | |
CN114692610A (zh) | 关键词确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |