CN116975218A - 文本处理方法、装置、计算机设备和存储介质 - Google Patents
文本处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116975218A CN116975218A CN202310460648.6A CN202310460648A CN116975218A CN 116975218 A CN116975218 A CN 116975218A CN 202310460648 A CN202310460648 A CN 202310460648A CN 116975218 A CN116975218 A CN 116975218A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- corrected
- standard
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 29
- 238000012937 correction Methods 0.000 claims abstract description 166
- 239000013074 reference sample Substances 0.000 claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000004590 computer program Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 99
- 238000001514 detection method Methods 0.000 claims description 75
- 239000000523 sample Substances 0.000 claims description 72
- 238000012545 processing Methods 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 17
- 208000015181 infectious disease Diseases 0.000 description 16
- 206010033072 otitis externa Diseases 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000003745 diagnosis Methods 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 11
- 238000012423 maintenance Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 210000000613 ear canal Anatomy 0.000 description 8
- 238000010606 normalization Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 208000008035 Back Pain Diseases 0.000 description 6
- 208000008930 Low Back Pain Diseases 0.000 description 6
- 208000032625 disorder of ear Diseases 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 241000228212 Aspergillus Species 0.000 description 3
- 206010061218 Inflammation Diseases 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000004054 inflammatory process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 201000002909 Aspergillosis Diseases 0.000 description 2
- 208000036641 Aspergillus infections Diseases 0.000 description 2
- 208000031888 Mycoses Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002538 fungal effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003387 muscular Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 208000018556 stomach disease Diseases 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 206010017533 Fungal infection Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 208000024386 fungal infectious disease Diseases 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种文本处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取目标待校正词对应的目标问题;目标问题包括目标待校正词和目标待校正词对应的候选标准词集合;获取目标待校正词对应的参考样例;参考样例包括参考问题和参考问题对应的参考答案,参考问题包括目标待校正词对应的参考待校正词和参考待校正词对应的候选标准词集合,参考答案包括参考待校正词对应的、从参考待校正词对应的候选标准词集合中确定的参考标准词;调用目标文本生成模型,对参考样例和目标问题进行语境学习,得到目标问题对应的目标答案;基于目标答案确定目标待校正词对应的目标标准词。采用本方法能够提高词语校正效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,越来越多的场景越来越需要服务标准化,例如,银行、保险、运输、旅游、医疗服务、文化娱乐等。以医疗服务为例,医疗用语需要标准化,将不规范的医疗用语校正到规范的医疗用语,以促进医疗信息化建设,减轻编码人员工作压力,提高工作效率。
传统技术中,通常是将预先标注的校正前后的词语作为训练数据对模型进行训练,使得模型从大规模训练数据中学习词语校正的相关知识,然后将待校正词输入神经网络模型来输出待校正词对应的校正结果。然而,模型需要大量的训练数据,而这些训练数据往往需要进行手动标注和整理,标注难度大,需要花费大量时间和精力,进而导致词语校正效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高词语校正效率的文本处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
本申请提供了一种文本处理方法。所述方法包括:
获取目标待校正词对应的目标问题;所述目标问题包括目标待校正词和所述目标待校正词对应的候选标准词集合;
获取所述目标待校正词对应的参考样例;所述参考样例包括参考问题和所述参考问题对应的参考答案,所述参考问题包括目标待校正词对应的参考待校正词和所述参考待校正词对应的候选标准词集合,所述参考答案包括所述参考待校正词对应的、从所述参考待校正词对应的候选标准词集合中确定的参考标准词;
调用目标文本生成模型,对所述参考样例和所述目标问题进行语境学习,得到所述目标问题对应的目标答案;
基于所述目标答案确定所述目标待校正词对应的目标标准词。
本申请还提供了一种文本处理装置。所述装置包括:
目标问题获取模块,用于获取目标待校正词对应的目标问题;所述目标问题包括目标待校正词和所述目标待校正词对应的候选标准词集合;
参考样例获取模块,用于获取所述目标待校正词对应的参考样例;所述参考样例包括参考问题和所述参考问题对应的参考答案,所述参考问题包括目标待校正词对应的参考待校正词和所述参考待校正词对应的候选标准词集合,所述参考答案包括所述参考待校正词对应的、从所述参考待校正词对应的候选标准词集合中确定的参考标准词;
模型处理模块,用于调用目标文本生成模型,对所述参考样例和所述目标问题进行语境学习,得到所述目标问题对应的目标答案;
目标标准词确定模块,用于基于所述目标答案确定所述目标待校正词对应的目标标准词。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述文本处理方法所述的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本处理方法所述的步骤。
一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述文本处理方法所述的步骤。
上述文本处理方法、装置、计算机设备、存储介质和计算机程序产品,通过获取目标待校正词对应的目标问题,目标问题包括目标待校正词和目标待校正词对应的候选标准词集合,获取目标待校正词对应的参考样例,参考样例包括参考问题和参考问题对应的参考答案,参考问题包括目标待校正词对应的参考待校正词和参考待校正词对应的候选标准词集合,参考答案包括参考待校正词对应的、从参考待校正词对应的候选标准词集合中确定的参考标准词,调用目标文本生成模型,对参考样例和目标问题进行语境学习,得到目标问题对应的目标答案,基于目标答案确定目标待校正词对应的目标标准词。这样,目标待校正词对应的参考样例是与目标待校正词相关的问答示例,有助于指导模型理解词语校正任务,目标待校正词对应的目标问题是要求回答目标待校正词的词语校正结果的问题,将参考样例和目标问题输入模型,模型基于参考样例所引入的问答知识来回答目标问题,能够降低模型回答目标问题的难度,从而无需预先标注校正前后的词语作为模型的训练数据,模型也可以快速确定目标问题对应的目标答案,减少了训练数据的需求,提高了词语校正效率。
附图说明
图1为一个实施例中文本处理方法的应用环境图;
图2为一个实施例中文本处理方法的流程示意图;
图3为一个实施例中获取原始词对应的候选标准词的示意图;
图4A为一个实施例中提示模板的示意图;
图4B为一个实施例中目标问题的示意图;
图4C为一个实施例中参考样例的示意图;
图5为一个实施例中目标文本的示意图;
图6为一个实施例中原始词和对应的示例的示意图;
图7为一个实施例中应用生成器的示意图;
图8为另一个实施例中文本处理方法的流程示意图;
图9为一个实施例中术语标准化界面的示意图;
图10为另一个实施例中术语标准化界面的示意图;
图11为一个实施例中针对医疗场景的文本处理方法的示意图;
图12为一个实施例中针对医疗场景的词语校正结果的示意图;
图13为一个实施例中文本处理装置的结构框图;
图14为一个实施例中计算机设备的内部结构图;
图15为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术,具体通过如下实施例进行说明:
本申请实施例提供的文本处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
终端和服务器均可单独用于执行本申请实施例中提供的文本处理方法。
例如,终端获取目标待校正词对应的目标问题,目标问题包括目标待校正词和目标待校正词对应的候选标准词集合。终端获取目标待校正词对应的参考样例,参考样例包括参考问题和参考问题对应的参考答案,参考问题包括目标待校正词对应的参考待校正词和参考待校正词对应的候选标准词集合,参考答案包括参考待校正词对应的、从参考待校正词对应的候选标准词集合中确定的参考标准词。终端调用目标文本生成模型,对参考样例和目标问题进行语境学习,得到目标问题对应的目标答案,基于目标答案确定目标待校正词对应的目标标准词。
终端显示目标待校正词,终端响应于针对目标待校正词的校正操作,显示目标待校正词对应的目标标准词。
终端和服务器也可协同用于执行本申请实施例中提供的文本处理方法。
例如,服务器从终端获取目标待校正词。服务器获取目标待校正词对应的目标问题,目标问题包括目标待校正词和目标待校正词对应的候选标准词集合。服务器获取目标待校正词对应的参考样例,参考样例包括参考问题和参考问题对应的参考答案,参考问题包括目标待校正词对应的参考待校正词和参考待校正词对应的候选标准词集合,参考答案包括参考待校正词对应的、从参考待校正词对应的候选标准词集合中确定的参考标准词。服务器调用目标文本生成模型,对参考样例和目标问题进行语境学习,得到目标问题对应的目标答案,基于目标答案确定目标待校正词对应的目标标准词。服务器向终端返回目标待校正词对应的目标标准词。
终端显示目标待校正词,终端响应于针对目标待校正词的校正操作,将目标待校正词发送至服务器进行词语校正,终端显示服务器反馈的目标待校正词所对应的目标标准词。
在一个实施例中,如图2所示,提供了一种文本处理方法,以该方法应用于计算机设备来举例说明,计算机设备可以是终端或服务器,该方法可以由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。参考图2,文本处理方法包括以下步骤:
步骤S202,获取目标待校正词对应的目标问题;目标问题包括目标待校正词和目标待校正词对应的候选标准词集合。
其中,待校正词是指待校正的词语。可以直接获取用户输入的词语作为待校正词,例如,在用语标准化界面上,用户可以输入词语来触发词语校正,将用户输入的词语作为待校正词。也可以获取从文本、视频、音频、图像等数据中提取到的词语作为待校正词。例如,在搜索场景下,可以获取搜索语句中的词语作为待校正词,通过待校正词对应的目标标准词从数据库中进行搜索,以提高搜索准确性。进一步的,可以从文本、视频、音频、图像等数据中,获取关键词作为待校正词。关键词可以是文本的标题、标签、摘要、文本中出现频次大于预设频次的词语等数据中的至少一者。关键词也可以是待处理文本中目标段落中的词语。目标段落可以根据实际需要进行设置,例如,目标段落可以是总结段落,总结段落是指总结文章主要内容或者表达结论的段落。举例说明,在医疗场景下,针对患者的体检文本,可以获取体检结果中的词语作为待校正词。可以理解,目标待校正词是指当前待校正的词语。
标准词是指标准化的词语、规范的词语。词语校正的目标就是将待校正词转换为规范的标准词,使得用词更准确、更规范,使得语义表达更准确、更规范。待校正词对应的候选标准词集合包括待校正词对应的至少两个候选标准词。候选标准词是指候选的标准词,从待校正词对应的候选标准词集合中确定待校正词对应的词语校正结果。待校正词对应的候选标准词集合可以是自动确定的,例如,待校正词对应的候选标准词集合包括待校正词对应的相似标准词,通过计算词与词之间的词相似度从标准词词库中确定待校正词对应的候选标准词集合。可以从标准词词库中获取词相似度最大的若干个标准词组成待校正词对应的候选标准词集合。也可以从标准词词库中获取与待校正词的词相似度大于相似度阈值的标准词组成待校正词对应的候选标准词集合。
可以理解,待校正词对应的候选标准词集合也可以是被动确定的,例如,待校正词对应的候选标准词集合包括用户针对待校正词输入的各个候选标准词。举例说明,在用语标准化界面上,用户可以输入待校正词和待校正词对应的候选标准词来触发词语校正,词语校正用于从用户输入的各个候选标准词中确定待校正词对应的词语校正结果。可以理解,目标待校正词对应的候选标准词集合包括目标待校正词对应的至少两个候选标准词。
待校正词对应的问题是指要求回答待校正词的词语校正结果的问题。待校正词对应的问题包括待校正词和待校正词对应的候选标准词集合,待校正词用于作为问题的题干,待校正词对应的候选标准词集合中的各个候选标准词用于作为问题的候选答案。可以理解,目标问题是指要求回答目标待校正词的词语校正结果的问题。目标问题包括目标待校正词和目标待校正词对应的候选标准词集合,目标待校正词用于作为目标问题的题干,目标待校正词对应的候选标准词集合中的各个候选标准词用于作为目标问题的候选答案。
具体地,随着计算机技术的发展,越来越多的场景越来越需要服务标准化,服务标准化通常都需要建立在规范的语言基础上,为了规范语言,计算机设备可以进行词语校正,将不规范的词语校正为规范的词语,以便实现服务标准化。
为了实现针对目标待校正词的词语校正,计算机设备可以在本地或从其他设备上获取目标待校正词对应的目标问题,目标问题包括目标待校正词和目标待校正词对应的候选标准词集合,通过回答目标问题来确定目标待校正词对应的目标标准词。
步骤S204,获取目标待校正词对应的参考样例;参考样例包括参考问题和参考问题对应的参考答案,参考问题包括目标待校正词对应的参考待校正词和参考待校正词对应的候选标准词集合,参考答案包括参考待校正词对应的、从参考待校正词对应的候选标准词集合中确定的参考标准词。
其中,目标待校正词对应的参考样例是指与目标待校正词相关的、可供参考的问答示例。参考样例是基于目标待校正词对应的参考待校正词的词语校正相关信息确定的。
目标待校正词对应的参考待校正词是指与目标待校正词相关的其他待校正词。目标待校正词对应的参考待校正词可以是目标待校正词对应的相似待校正词,目标待校正词对应的相似待校正词是指与目标待校正词相似的其他待校正词。可以基于目标待校正词和其他待校正词之间的词相似度,从大量待校正词中确定目标待校正词对应的相似待校正词。目标待校正词对应的参考待校正词也可以是与目标待校正词属于同类别的其他待校正词。例如,在医疗场景下,若目标待校正词为耳部疾病类别下的耳部疾病A,则目标待校正词对应的参考待校正词可以是耳部疾病类别下的耳部疾病B;若目标待校正词为胃部疾病类别下的耳部疾病A,则目标待校正词对应的参考待校正词可以是胃部疾病类别下的耳部疾病B。并且,目标待校正词对应的参考待校正词是已知词语校正结果的待校正词。
参考样例包括目标待校正词对应的参考待校正词所对应的参考问题、以及参考问题对应的参考答案。参考问题是指要求回答参考待校正词的词语校正结果的问题,参考问题包括目标待校正词对应的参考待校正词和参考待校正词对应的候选标准词集合,参考待校正词用于作为参考问题的题干,参考待校正词对应的候选标准词集合中的各个候选标准词用于作为参考问题的候选答案。可以理解,参考待校正词对应的候选标准词集合包括参考待校正词对应的至少两个候选标准词。
参考问题是已知答案的问题。参考问题对应的参考答案用于指示参考待校正词对应的词语校正结果。参考答案包括参考待校正词对应的、从参考待校正词对应的候选标准词集合中确定的参考标准词。参考标准词是指参考待校正词对应的目标标准词,目标标准词是指最终确定的词语校正结果。
具体地,计算机设备可以在本地或从其他设备上获取目标待校正词对应的参考样例,参考样例是与目标待校正词相关的问答示例,有助于辅助回答目标待校正词对应的目标问题。
可以理解,在确定目标待校正词后,获取目标待校正词对应的目标问题和获取目标待校正词对应的参考样例的先后顺序,本申请不做限制。
步骤S206,调用目标文本生成模型,对参考样例和目标问题进行语境学习,得到目标问题对应的目标答案。
其中,文本生成模型是一种深度学习模型、机器学习模型,用于基于输入的文本生成新的文本。文本生成模型可以是基于输入的上文预测下文的模型。目标文本生成模型是指已训练的文本生成模型。
在一个实施例中,文本生成模型是大规模语言模型(Large Language Model,LLM)。LLM是指拥有数十亿或数千亿参数的深度语言模型,比如GPT-3(Generative Pre-trained Transformer 3,生成型预训练变换模型3)、T5(Transfer Text-to-TextTransformer,文本到文本的变换模型)、以及ChatGPT(Chat Generative Pre-trainedTransformer,聊天生成预训练变换模型)等。LLM采用了自监督学习,它不需要原始数据的标签,而是依赖大量的文本数据来进行训练,获取大量的语言知识。它使用了Transformer架构,可以基于上下文生成新的句子,并可以应用于很多领域,如机器翻译、自动问答、文本生成和情绪分析等,具有很强的普适性以及通用性。
目标问题对应的目标答案用于指示目标待校正词对应的词语校正结果。
具体地,计算机设备调用目标文本生成模型,对参考样例和目标问题进行语境学习,得到目标问题对应的目标答案。计算机设备将参考样例和目标问题输入目标文本生成模型,参考样例用于辅助模型决策,使得模型不是只依靠存储在模型参数中的知识回答目标问题,模型可以进一步参考来自外部的参考样例的相关知识来回答目标问题,从而降低目标问题的难度,提高模型的泛化性能。
目标文本生成模型是已训练的文本生成模型,具有较强的文本理解能力。将目标待校正词对应的参考样例和目标问题输入模型来进行针对目标待校正词的词语校正,是一种基于语境学习的词语校正方式。语境学习(In-context learning)是一种学习机制,它允许模型从输入文本中学习语义和上下文信息,通过在少量的数据样本中进行学习,来进行推断和预测。它通过分析文本中的词汇和语法来学习文本的意义,从输入数据中学习并理解语言的含义、语境和推理,从而更好地预测下一个句子的内容。将目标待校正词对应的参考样例和目标问题输入模型,能够激发模型对词语校正任务的认识和理解。
可以理解,参考样例包括参考问题和参考答案,将参考样例和目标问题输入模型,模型基于参考样例可以获知需要回答目标问题。进一步的,参考答案是从参考问题中的候选答案中确定的,将参考样例和目标问题输入模型,模型基于参考样例可以获知需要从目标问题中的候选答案中确定目标问题对应的目标答案。进一步的,参考样例是与目标待校正词相关的样例,将参考样例和目标问题输入模型,模型基于参考样例可以快速学习与目标待校正词相关的知识,使得模型快速适应针对目标待校正词的词语校正任务,输出准确的词语校正结果。
目标待校正词对应的参考样例可以有至少一个,不同的参考样例包括不同的参考待校正词。将各个参考样例和目标问题输入模型,得到目标问题对应的目标答案。可以理解,目标待校正词对应的参考样例越多,模型可以学习到的知识越多,模型输出的目标答案会越准确。
步骤S208,基于目标答案确定目标待校正词对应的目标标准词。
其中,目标待校正词对应的目标标准词是指目标待校正词对应的最终的标准词。
具体地,在得到目标问题对应的目标答案后,计算机设备可以基于目标答案确定目标待校正词对应的目标标准词。例如,将目标答案作为目标待校正词对应的目标标准词,从目标答案中提取包含的标准词作为目标待校正词对应的目标标准词。
后续,可以将目标标准词进行展示。例如,在用户触发针对目标待校正词的词语校正后,向用户展示目标待校正词对应的目标标准词。在包含目标待校正词的数据(例如文本、视频、音频、图像)中,可以将目标待校正词替换为目标标准词。进一步的,还可以基于目标标准词进行数据归档,例如,基于目标标准词进行数据分类。还可以基于目标标准词进行信息推荐,例如,针对包含目标标准词的数据,推荐与目标标准词相关的信息,例如,可以推荐与目标标准词相关的意见或建议。以设备维修为例,针对某个设备的维修报告,将维修报告中的设备故障结果作为目标待校正词,确定目标待校正词对应的目标标准词,将维修报告中的设备故障结果从目标待校正词替换为目标标准词,并且可以获取目标标准词对应的维修建议,将目标标准词对应的维修建议和维修报告一并进行推送,例如,推送至维修人员对应的终端,以便维修人员快速对设备进行维护。
上述文本处理方法中,目标待校正词对应的参考样例是与目标待校正词相关的问答示例,有助于指导模型理解词语校正任务,目标待校正词对应的目标问题是要求回答目标待校正词的词语校正结果的问题,将参考样例和目标问题输入模型,模型基于参考样例所引入的问答知识来回答目标问题,能够降低模型回答目标问题的难度,从而无需预先标注校正前后的词语作为模型的训练数据,模型也可以快速确定目标问题对应的目标答案,减少了训练数据的需求,提高了词语校正效率。
在一个实施例中,获取目标待校正词对应的目标问题,包括:
获取目标待校正词和标准词集合;基于目标待校正词分别和标准词集合中各个标准词之间的词相似度,从标准词集合中确定目标待校正词对应的候选标准词集合;将目标待校正词作为目标题干,将目标待校正词对应的候选标准词集合中各个候选标准词分别作为目标题干对应的候选答案,基于目标题干和候选答案,得到目标待校正词对应的目标问题。
其中,标准词集合包括多个标准词。在一个实施例中,可以获取业界公认的标准词表作为标准词集合。例如,在医疗场景下,可以获取ICD-10(internationalClassification of diseases,国际疾病分类)词表中的词组成标准词集合。ICD-10词表中包含了大约3万个标准词,这些标准词是专业性极强的医学术语。
可以基于词语之间的词相似度获取与某个词语相关的其他词语。词相似度用于表征词语和词语之间的相似程度。词语和词语之间的词相似度越大,表示词语和词语之间的相似程度越大,词语和词语之间越相似。可以采用各种相似度计算算法来计算词语和词语之间的相似度,例如,可以计算词语和词语之间的字符重叠率作为词相似度,也可以提取词语的文本特征作为词特征,计算词特征和词特征之间的余弦距离或欧式距离等表示特征之间距离的数据作为词相似度;等等。
问题一般包括题干和候选答案,题干是指提出问题的句子或提出问题的句子主要成分,候选答案是指候选的答案、可供选择的答案。例如,针对选择题形式的问题,用来提出问题的句子为题干,选项为候选答案。
具体地,计算机设备可以在本地或从其他设备上获取目标待校正词和标准词集合,从标准词集合中召回和目标待校正词相关的若干个标准词组成目标待校正词对应的候选标准词集合。计算机设备可以计算目标待校正词分别和标准词集合中各个标准词之间的词相似度,基于词相似度,从标准词集合中召回和目标待校正词相关的若干个标准词组成目标待校正词对应的候选标准词集合。例如,可以按照词相似度从大到小,对标准词集合中的各个标准词进行排序,从排序结果中获取排序靠前的k个标准词作为目标待校正词对应的候选标准词;可以从标准词集合中获取词相似度大于相似度阈值的k个标准词作为目标待校正词对应的候选标准词。k可以根据实际需要进行设置,例如,可以设置为3;可以设置为词表的3/5。
在确定目标待校正词对应的候选标准词集合后,计算机设备可以将目标待校正词作为目标题干,将目标待校正词对应的候选标准词集合中各个候选标准词分别作为目标题干对应的候选答案,将目标题干和候选答案组合,得到目标待校正词对应的目标问题。
上述实施例中,基于目标待校正词分别和标准词集合中各个标准词之间的词相似度,从标准词集合中获取与目标待校正词相似的标准词组成目标待校正词对应的候选标准词集合,进而基于目标待校正词和目标待校正词对应的候选标准词集合生成模型待处理的目标问题,目标待校正词对应的候选标准词集合中各个候选标准词用于作为目标问题中的各个候选答案,这样能够有效避免模型输出不在标准词集合中的目标答案,也能够缩小后续模型输出目标答案的范围,减少模型的数据处理压力,提高模型输出目标答案的效率。
在一个实施例中,基于目标待校正词分别和标准词集合中各个标准词之间的词相似度,从标准词集合中确定目标待校正词对应的候选标准词集合,包括:
分别对目标待校正词和各个标准词进行特征提取,得到目标待校正词和各个标准词分别对应的词特征;基于目标待校正词对应的词特征分别和各个标准词对应的词特征之间的特征距离,从标准词集合中确定目标待校正词对应的候选标准词集合。
其中,特征提取是指将数据转换成可以量化的特征向量,以便后续的数据处理。词特征是指词语对应的特征向量。可以采用各种针对文本的特征提取算法对词语进行特征提取,例如,可以采用机器学习模型。
词语和词语之间的词相似度可以通过词特征和词特征之间的特征相似度来表示。特征距离是指特征和特征之间的距离,用于表示特征和特征之间的特征相似度。例如,可以计算特征和特征之间的余弦相似度作为特征和特征之间的特征距离;可以计算特征和特征之间的欧式距离作为特征和特征之间的特征距离;等等。
具体地,计算机设备可以计算词特征和词特征之间的特征相似度作为词特征所对应的词语之间的词相似度。计算机设备分别对目标待校正词和各个标准词进行特征提取,得到目标待校正词和各个标准词分别对应的词特征,计算目标待校正词对应的词特征分别和各个标准词对应的词特征之间的特征距离。计算机设备基于目标待校正词对应的词特征分别和各个标准词对应的词特征之间的特征距离,从标准词集合中召回和目标待校正词相关的若干个标准词组成目标待校正词对应的候选标准词集合。例如,若特征距离为余弦相似度,特征和特征之间的余弦相似度越大,则特征和特征之间越相似,可以按照特征距离从大到小,对标准词集合中的各个标准词进行排序,从排序结果中获取排序靠前的k个标准词作为目标待校正词对应的候选标准词。
在一个实施例中,由于预训练模型是通过大规模未标注数据进行预训练的,可以学习到更加丰富的特征表示,本身也可以看作针对文本的特征编码器,因此,可以采用预训练模型进行特征提取。可以采用预训练模型BERT(Bidirectional EncoderRepresentation from Transformers,双向Transformer的Encoder)提取目标待校正词和标准词的特征向量。当然,也可以采用其他的预训练模型,比如RoBERTa(A RobustlyOptimized BERT,鲁棒优化的BERT)、MacBERT(MLM as correction BERT,基于文本纠错的掩码语言模型)或者GPT(Generative Pre-Training,生成式的预训练模型)等。
举例说明,参考图3,原始词(即待校正词)为外耳道霉菌感染,标准词集合为医学术语词表。采用BERT提取原始词和词表中所有标准词的特征向量,使用余弦相似度度量方式来计算原始词的特征向量分别和每个标准词的特征向量之间的特征相似度,获取特征相似度最高的k个标准词作为原始词对应的候选标准词。以原始词为外耳道霉菌感染,k为3为例,外耳道霉菌感染对应的候选标准词为真菌性外耳炎、外耳道曲霉菌病、真菌性外耳道炎。
在一个实施例中,为了提高候选标准词的获取效率,计算机设备可以预先对各个标准词进行特征提取,得到各个标准词分别对应的词特征,存储各个标准词分别对应的词特征。后续若计算机设备获取到目标待校正词,计算机设备只需要对目标待校正词进行特征提取,得到目标待校正词对应的词特征,就可以计算特征距离来从标准词集合中确定目标待校正词对应的候选标准词集合
上述实施例中,分别对目标待校正词和各个标准词进行特征提取,得到目标待校正词和各个标准词分别对应的词特征,基于目标待校正词对应的词特征分别和各个标准词对应的词特征之间的特征距离,从标准词集合中确定目标待校正词对应的候选标准词集合,将特征距离作为词相似度,可以保障词相似度的准确性,基于特征距离可以从标准词集合中获取与目标待校正词较相似的标准词组成目标待校正词对应的候选标准词集合。
在一个实施例中,将目标待校正词作为目标题干,将目标待校正词对应的候选标准词集合中各个候选标准词分别作为目标题干对应的候选答案,基于目标题干和候选答案,得到目标待校正词对应的目标问题,包括:
获取提示模板;提示模板包括问题对应的题干填充位和候选答案填充位、以及答案对应的目标答案填充位;在提示模板中,将目标待校正词填充至题干填充位,将目标待校正词对应的候选标准词集合中各个候选标准词分别填充至各个候选答案填充位,得到目标问题。
其中,提示模板是指一种问答模板,用于针对模型的提示学习。提示模板包括问题对应的题干填充位和候选答案填充位、以及答案对应的目标答案填充位。题干填充位用于填充问题中的题干,候选答案填充位用于填充问题中的候选答案,目标答案填充位用于填充问题对应的最终答案、目标答案。
对于词语校正任务的任务目标,我们期望文本生成模型能够输出从候选标准词集合中确定的目标标准词,而不是生成不存在候选标准词集合中的目标标准词,因此,文本生成模型的输入数据包括目标待校正词以及目标待校正词对应的候选标准词集合,输出数据包括从候选标准词集合中确定的一个或者多个目标标准词。基于此,提示模板可以是选择题形式的模板,具体可以参考图4。如图4A所示,提示模板中的第一行为题干填充位,用于填充原始词(即待校正词),提示模板中的第二行为候选答案填充位,用于填充原始词对应的候选标准词,提示模板中的第三行为目标答案填充位,用于填充原始词对应的目标标准词。可以理解,图4A所示的提示模板是以候选标准词集合包括3个候选标准词为例,提示模板中可以设定更多或更少的选项。
若目标待校正词为外耳道霉菌感染,目标待校正词对应的候选标准词集合包括真菌性外耳炎、外耳道曲霉菌病、真菌性外耳道炎,将目标待校正词和对应的候选标准词集合填充至图4A所示的提示模板中得到的目标问题如图4B所示。
具体地,在模型输入数据中添加提示可以更好地指导模型输出期望数据。提示可以理解为是一种输入到模型中的引导性信息,它能够帮助模型更好地理解和处理输入的数据,提高模型的准确性和泛化能力。因此,计算机设备可以基于提示模板来生成目标问题。
计算机设备从本地或其他设备上获取提示模板,在提示模板中,将目标待校正词填充至题干填充位,将目标待校正词对应的候选标准词集合中各个候选标准词分别填充至各个候选答案填充位,从而得到目标待校正词对应的目标问题。
可以理解,目标问题可以是单选题,也可以是多选题。
上述实施例中,通过设计词语校正任务相关的提示模板来生成模型待处理的目标问题,不需要过度的标记就可以让模型更好地提取特征,提高了模型输出目标答案的准确率,并且模型学习效率更高。
在一个实施例中,获取目标待校正词对应的参考样例,包括:
获取目标待校正词对应的参考待校正词、参考待校正词对应的参考标准词,获取参考待校正词对应的候选标准词集合;参考待校正词对应的候选标准词集合包括参考标准词;获取提示模板;提示模板包括问题对应的题干填充位和候选答案填充位、以及答案对应的目标答案填充位;在提示模板中,将参考待校正词填充至题干填充位,将参考待校正词对应的候选标准词集合中各个候选标准词分别填充至各个候选答案填充位,将参考标准词填充至目标答案填充位,得到目标待校正词对应的参考样例。
其中,参考待校正词对应的参考标准词是从参考待校正词对应的候选标准词集合中选取的。参考待校正词是已知词语校正结果的待校正词。
具体地,在模型输入数据中添加提示可以更好地指导模型输出期望数据。提示可以理解为是一种输入到模型中的引导性信息,它能够帮助模型更好地理解和处理输入的数据,提高模型的准确性和泛化能力。因此,计算机设备可以基于提示模板来生成参考样例。
计算机设备获取目标待校正词对应的参考待校正词,获取参考待校正词对应的参考标准词,获取参考待校正词对应的候选标准词集合,在提示模板中,将参考待校正词填充至题干填充位,将参考待校正词对应的候选标准词集合中各个候选标准词分别填充至各个候选答案填充位,将参考标准词填充至目标答案填充位,从而得到目标待校正词对应的参考样例。
若目标待校正词对应的参考待校正词为双耳道霉菌感染,该参考待校正词对应的候选标准词集合包括真菌性外耳炎、外耳道曲霉菌病、外耳道炎,该参考待校正词对应的参考标准词为真菌性外耳道炎,将参考待校正词、对应的候选标准词集合和参考标准词填充至图4A所示的提示模板中得到的参考样例如图4C所示。
可以理解,参考待校正词对应的候选标准词集合的获取方式可以参考目标待校正词对应的候选标准词集合的获取方式。
可以理解,参考问题可以是单选题,也可以是多选题。
上述实施例中,通过设计词语校正任务相关的提示模板来生成参考样例,运用参考样例中的上下文信息来指导模型的输出,不需要过度的标记就可以让模型更好地提取特征,提高了模型输出目标答案的准确率,并且模型学习效率更高。将目标待校正词对应的参考样例和目标问题输入模型是一种语境学习方式,语境学习能够解决现实世界中常见的资料缺乏、标记不足等问题,同时也具有更强的泛化能力,可以有效提高模型的性能。通过提供相关的示例,一方面降低目标问题的解决难度,另一方面也提供了一定的指导信息,比如模型通过参考样例可以发现这样的规律:“答案”后面跟随的都是选项中的内容而不是新生成文本,这种指导信息使得模型尽可能遵循与参考样例相同的范式,避免模型生成不在选项中的文本作为目标答案。
在一个实施例中,获取目标待校正词对应的参考待校正词、参考待校正词对应的参考标准词,包括:
获取词样本对集合;词样本对集合包括样本待校正词和样本待校正词对应的样本标准词;基于目标待校正词分别和词样本对集合中各个样本待校正词之间的词相似度,从各个样本待校正词中确定目标待校正词对应的参考待校正词;从词样本对集合中,将参考待校正词对应的样本标准词作为参考待校正词对应的参考标准词。
其中,词样本对集合包括多对词样本,一对词样本包括一个样本待校正词和该样本待校正词对应的样本标准词。样本待校正词是指已知词语校正结果的待校正词,样本标准词是指样本待校正词对应的目标标准词、词语校正结果。
具体地,计算机设备可以从预先建立的词样本对集合中确定目标待校正词对应的参考待校正词和参考待校正词对应的参考标准词。计算机设备获取词样本对集合,词样本对集合包括多个由校正前后词语组成的词样本对,在词样本对中校正前的词语为样本待校正词,校正后的词语为样本标准词。计算机设备计算目标待校正词分别和词样本对集合中各个样本待校正词之间的词相似度,基于词相似度,从各个样本待校正词中确定目标待校正词对应的参考待校正词。例如,可以按照词相似度从大到小,对词样本对集合中各个样本待校正词进行排序,从排序结果中获取排序靠前的L个样本待校正词分别作为目标待校正词对应的参考待校正词;可以从词样本对集合中获取词相似度大于相似度阈值的L个样本待校正词作为目标待校正词对应的参考待校正词。L可以根据实际需要进行设置。进一步的,计算机设备从词样本对集合中,将参考待校正词对应的样本标准词作为参考待校正词对应的参考标准词,得到各个参考待校正词分别对应的参考标准词。
在一个实施例中,针对不同的技术领域可以建立不同的词样本对集合。针对不同的技术领域,词样本对集合包括特定技术领域对应的词样本对。例如,在医疗场景下,在医疗技术领域下,词样本对集合中的词样本对包括校正前后的医疗用语。在车辆检测场景下,在车辆检测技术领域下,词样本对集合中的词样本对包括校正前后的车辆用语。
上述实施例中,基于目标待校正词分别和词样本对集合中各个样本待校正词之间的词相似度,从词样本对集合中获取与目标待校正词相似的样本待校正词作为目标待校正词对应的参考待校正词,从词样本对集合中获取与目标待校正词相似的样本待校正词所对应的样本标准词作为参考待校正词对应的参考标准词,基于这样的参考待校正词的相关信息生成的参考样例可以为模型提供与目标待校正词相关的知识,从而更好地辅助模型输出更准确的目标答案,提高词语校正的准确性。
在一个实施例中,调用目标文本生成模型,对参考样例和目标问题进行语境学习,得到目标问题对应的目标答案,包括:
拼接参考样例和目标问题,得到目标文本;将目标文本输入目标文本生成模型,以使目标文本生成模型参照参考样例,从目标待校正词对应的候选标准词集合中确定目标问题对应的目标答案。
具体地,在获取到目标待校正词对应的参考样例和目标问题后,计算机设备将参考样例和目标问题进行拼接得到目标文本,在目标文本中,参考样例排列在目标问题之前。参考图5,在目标问题前面拼接上参考样例得到目标文本,图5中502所示为两个参考样例,图5中的504所示为目标问题。
计算机设备将目标文本输入目标文本生成模型,以使目标文本生成模型参照参考样例,从目标待校正词对应的候选标准词集合中确定目标问题对应的目标答案。参考样例用于让模型进行类别推理学习,以使模型利用参考样例提供的少量知识和经验输出更准确的目标答案。例如,参考图6,如果需要推断原始词“外耳道霉菌感染”对应的标准词,如果没有见过前面两个示例那么容易误判结果为“外耳道曲霉菌病”,然而如果可以结合前面两个示例,那么不难知道“外耳道霉菌感染”对应的标准词应该是“真菌性外耳道炎”。在目标问题前面拼接上参考样例,将拼接得到的目标文本输入目标文本生成模型,使得模型通过利用已有的少量知识和经验,来快速适应新的问题,输出正确答案。
举例说明,参考图7,目标待校正词为外耳道霉菌感染,目标待校正词对应的参考待校正词为双耳道霉菌感染和双耳道真菌感染。基于参考待校正词、参考待校正词对应的候选标准词集合、参考待校正词对应的标准词生成检索示例(即参考样例)。基于目标待校正词和目标待校正词对应的候选标准词集合生成查询文本。将检索示例拼接在查询文本之前得到生成器(即目标文本生成模型)的输入文本,将输入文本输入生成器,生成器输出目标答案,从目标答案中提取标准词得到目标待校正词对应的预测标准词(即目标标准词)。
可以理解,参考样例中的参考答案和目标问题对应的目标答案不一定是同一答案,图7只是一个示例。并且,参考样例中的参考问题和目标问题不一定是单选题,图7只是一个示例。
上述实施例中,拼接参考样例和目标问题,得到目标文本,将目标文本输入目标文本生成模型,以使目标文本生成模型参照参考样例,从目标待校正词对应的候选标准词集合中确定目标问题对应的目标答案,能够提高模型输出的目标答案的准确性,提高词语校正的准确性。
在一个实施例中,文本处理方法还包括:
获取训练文本集合;训练文本集合包括训练文本和训练文本对应的标签文本;标签文本为训练文本的下文;将训练文本集合中的训练文本输入初始文本生成模型,得到训练文本对应的预测文本;基于同一训练文本对应的预测文本和标签文本之间的文本差异,调整初始文本生成模型的模型参数,直至满足收敛条件,得到目标文本生成模型。
其中,初始文本生成模型是指待训练的文本生成模型。训练文本集合是文本生成模型的训练数据。训练文本集合包括多个训练文本和各个训练文本分别对应的标签文本。训练文本可以是任意的文本,训练文本对应的标签文本是训练文本的真实下文、真实后文。例如,训练文本为句子A,训练文本对应的标签文本为句子A的下一句。
将训练文本输入初始文本生成模型,初始文本生成模型输出预测文本。预测文本为模型的输出文本,是模型基于训练文本预测出来的下文。
具体地,文本生成模型可以是基于上文预测下文的模型。在模型训练时,训练任务可以是基于上文预测下文。计算机设备在本地或从其他设备上获取训练文本集合,将训练文本集合中的训练文本输入初始文本生成模型,得到训练文本对应的预测文本。可以理解,若训练文本集合中包括多个训练文本,则将各个训练文本分别输入初始文本生成模型,模型输出各个训练文本分别对应的预测文本。计算机设备基于同一训练文本对应的预测文本和标签文本之间的文本差异计算模型损失,将模型损失反向传播来调整初始文本生成模型的模型参数,直至满足收敛条件,则训练完成,得到目标文本生成模型。
其中,收敛条件是用于判断模型是否收敛的条件。收敛条件包括但不限于模型损失小于预设损失值、模型迭代次数大于预设迭代次数或模型损失的变化率小于预设变化率等中的至少一者。例如,计算机设备获取训练文本集合,将训练文本集合中的训练文本输入初始文本生成模型,得到训练文本对应的预测文本,基于同一训练文本对应的标签文本和预测文本之间的文本差异计算模型损失,基于模型损失调整初始文本生成模型得到中间文本生成模型,将中间文本生成模型作为初始文本生成模型,获取新的训练文本集合,将新的训练文本集合中的训练文本输入新的初始文本生成模型来计算得到新的模型损失,基于新的模型损失调整新的初始文本生成模型得到新的中间文本生成模型,将中间文本生成模型作为初始文本生成模型,返回获取训练文本集合的步骤执行,继续进行迭代训练。若预设迭代次数为100,则获取第101次调整得到的中间文本生成模型作为目标文本生成模型。
可以理解,目标文本生成模型是依赖大量的文本数据来进行训练,通过训练获取到大量的语言知识,可以基于输入的上文预测下文,具有较强的普适性以及通用性。但是在词语校正任务上,若直接将目标待校正词输入目标文本生成模型,由于模型对词语校正任务的知识不足,模型难以输出准确的词语校正结果。若获取词语校正任务对应的训练数据来对目标文本生成模型进行微调,使得目标文本生成模型适应于词语校正任务,由于目标文本生成模型的参数量通常比较大,对目标文本生成模型进行微调对于计算机设备的资源要求极高,不具备普适性以及通用性。为了解决这个问题,本申请方法在不对目标文本生成模型进行参数更新的情况下,将目标待校正词对应的参考样例和目标问题拼接后输入目标文本生成模型,使得目标文本生成模型参考通过参考样例提供的外部知识也可以处理词语校正任务,输出目标问题对应的准确的目标答案。
在一个实施例中,针对不同的技术领域可以训练不同的文本生成模型。针对不同的技术领域,文本生成模型的训练数据为特定技术领域对应的训练文本集合。例如,在医疗场景下,在医疗技术领域下,训练文本集合中的训练文本为医疗文本。医疗文本可以是检查记录、医学文章等包含医学术语或医学知识的文本。在车辆检测场景下,在车辆检测技术领域下,训练文本集合中的训练文本为车辆检测文本。车辆检测文本可以是车辆检测报告、车辆检测类书籍等包含车辆检测知识的文本。
进一步的,在同一技术领域下,也可以训练至少一个文本生成模型,不同的文本生成模型具有不同的模型结构或者采用不同的机器学习算法。
上述实施例中,文本生成模型的训练任务是基于上文预测下文,这样在训练完成后,模型具有较强的语义理解能力,将目标待校正词对应的参考样例和目标问题输入目标文本生成模型,模型可以基于参考样例和目标问题输出下文,下文即为目标问题对应的目标答案。模型的训练任务为基于上文预测下文,模型的应用任务为词语校正任务,即使模型的训练任务和应用任务不同,也无需基于词语校正任务的相关训练数据对目标文本生成模型进行进一步的微调,模型参考输入数据中的相关知识就可以输出准确的目标答案,保障词语校正的准确性。即使模型的训练任务是基于上文预测下文,模型的应用任务是词语校正任务,在目标问题前面拼接上参考样例得到目标文本,将目标文本输入模型,从而通过利用输入数据中包含的少量知识和经验,来快速使得模型适应训练任务以外的新任务,保障词语校正的准确性。
在一个实施例中,目标待校正词是对象检测结果记录集合中的对象检测结果记录对应的关键词。文本处理方法还包括:
基于对象检测结果记录集合中各个对象检测结果记录分别对应的目标标准词,对各个对象检测结果记录进行分类,得到各个对象检测结果记录子集。
其中,对象可以是独立的生命体或者非生命体,生命体例如可以是自然人、动物、植物,非生命体例如可以是车辆、相机等设备。采用至少一类检测仪器对对象进行至少一项指标的检测,得到对象检测结果记录。对象检测结果记录用于记录对象的检测结果,对象检测结果记录还可以记录有对象的检测过程、检测标准等其他与检测相关的信息。例如,若对象为自然人,对象检测结果记录可以是体检报告,对象检测结果记录可以是诊疗记录;若对象为设备,对象检测结果记录可以是设备检查报告。
对象检测结果记录对应的关键词是对象检测结果记录中记录的词语。进一步的,对象检测结果记录对应的关键词具体可以是描述对象检测结果的词语,例如,获取对象检测结果记录中表示诊断结果的词语作为对象检测结果记录对应的关键词。可以理解,对象检测结果记录对应的关键词可以根据需要获取,对象检测结果记录一般具有特定的格式和模板,可以按需从相应位置获取所需数据作为关键词。
具体地,计算机设备可以将对象检测结果记录中的关键词作为目标待校正词,对对象检测结果记录对应的关键词进行词语校正,得到关键词对应的目标标准词,也就是,得到对象检测结果记录对应的目标标准词。对象检测结果记录集合包括多个对象检测结果记录,计算机设备可以基于对象检测结果记录集合中各个对象检测结果记录分别对应的目标标准词,对各个对象检测结果记录进行分类,将具备同一目标标准词的对象检测结果记录组成对象检测结果记录子集,得到各个目标标准词分别对应的对象检测结果记录子集。同一对象检测结果记录子集中包括对应同一目标标准词的各个对象检测结果记录。进一步的,在对象检测结果记录中,还可以将关键词替换为对应的目标标准词,使得对象检测结果记录中的用语统一,规范对象检测结果记录。
可以理解,在医疗场景下,即使是同一家医院,每个医护人员的用语习惯都不尽相同,针对同一种疾病,不同医护人员使用的医学术语可能是不同的,导致对象检测结果记录中的数据纷繁复杂,难以快速归档。然而,采用本申请方法对对象检测结果记录中的关键词进行词语校正,可以统一对象检测结果记录中的医学术语,进而有助于提高对象检测结果记录归档效率。当然,在其他场景下,采用本申请方法对对象检测结果记录中的关键词进行词语校正,也可以统一对象检测结果记录中的专业术语,进而有助于提高对象检测结果记录归档效率。
上述实施例中,目标待校正词是对象检测结果记录对应的关键词,基于对象检测结果记录集合中各个对象检测结果记录分别对应的目标标准词,对各个对象检测结果记录进行分类,通过目标标准词来规范对象检测结果记录中的关键词,能够提高针对对象检测结果记录的分类准确性和分类效率。
在一个实施例中,如图8所示,步骤S202之前,文本处理方法还包括:
步骤S802,显示目标待校正词。
步骤S804,响应于针对目标待校正词的校正操作,进入获取目标待校正词对应的目标问题的步骤。
步骤S208之后,文本处理方法还包括:
步骤S806,显示目标待校正词对应的目标标准词。
其中,校正操作是指触发词语校正的操作。校正操作具体可以是针对校正控件的触发操作。触发操作具体可以是触摸操作、光标操作、按键操作或者语音操作。其中,触摸操作可以是触摸点击操作、触摸按压操作或者触摸滑动操作,触摸操作可以是单点触摸操作或者多点触摸操作;光标操作可以是控制光标进行点击的操作或者控制光标进行按压的操作;按键操作可以是虚拟按键操作或者实体按键操作等。
可以理解,针对目标待校正词的词语校正的具体过程可以参考前述各个实施例的内容,此处不再赘述。
具体地,在确定目标待校正词后,用户可以在终端上触发针对目标待校正词的词语校正,进而获知目标待校正词对应的目标标准词。用户可以在终端上输入目标待校正词,终端可以显示用于用户输入待校正词的待校正词录入控件,用户可以触发待校正词录入控件来输入目标待校正词。例如,终端可以显示用于输入待校正词的文本框,用户可以在文本框中填写待校正词,将用户当前填写的待校正词作为目标待校正词。当然,目标待校正词也可以无需用户实时手动输入,目标待校正词也可以是从文本、视频、音频、图像等数据中提取到并自动显示的。在用户触发针对目标待校正词的词语校正后,终端响应于针对目标待校正词的校正操作,获取目标待校正词对应的目标标准词并显示。
举例说明,针对医疗场景,可以在终端上进入医疗信息化应用,医疗信息化应用提供有针对医疗的术语标准化服务,用户可以在医疗信息化应用的术语标准化界面上进行针对诊断词的词语校正、术语标准化。参考图9,902所示区域为触发词语校正的区域,用户可以在术语标准化界面上输入诊断词,用户再点击“归一”控件即可触发针对输入诊断词的词语校正。904所示区域为展示词语校正结果的区域。在术语标准化界面上,若用户输入“腰疼病”,点击“归一”控件,则展示“腰疼病”的相关词语校正结果,具体包括在不同标准词表下“腰疼病”分别对应的标准词、各个标准词表的基本信息、以及“腰疼病”对应的标准词在标准词表中的其他相关信息。图9中的ICD-Code用于指示ICD-10版本对应的编号、编码,ICD-Chapter用于指示标准词在标准词表中处于第几章,ICD-Section表示标准词在标准词表中处于第几节。
在一个实施例中,除了向用户展示目标待校正词和目标待校正词对应的目标标准词,还可以向用户展示反馈控件,用户可以通过反馈控件进行问题反馈。例如,用户可以在词语校正界面上触发词语校正,针对词语校正界面上的任何不满意的地方,用户都可以通过反馈控件进行反馈。
上述实施例中,用户可以触发词语校正功能,进而展示目标待校正词对应的目标标准词,该目标标准词为目标待校正词的词语校正结果。目标标准词是基于将目标待校正词对应的目标问题和参考样例输入目标文本生成模型得到的目标答案确定的,目标待校正词对应的参考样例是与目标待校正词相关的问答示例,有助于指导模型理解词语校正任务,目标待校正词对应的目标问题是要求回答目标待校正词的词语校正结果的问题,将参考样例和目标问题输入模型,模型基于参考样例所引入的问答知识来回答目标问题,能够降低模型回答目标问题的难度,从而无需预先标注校正前后的词语作为模型的训练数据,模型也可以快速确定目标问题对应的目标答案,减少了训练数据的需求,提高了词语校正效率。
在一个实施例中,响应于针对目标待校正词的校正操作,进入获取目标待校正词对应的目标问题的步骤,包括:
显示针对目标待校正词的校正控件和校正参数设置入口;响应于针对校正参数设置入口的触发操作,选中目标校正参数;目标校正参数包括标准词目标集合、目标文本生成模型中的至少一者,标准词目标集合用于确定待校正词对应的候选标准词集合;响应于针对校正控件的触发操作,进入获取目标待校正词对应的目标问题的步骤。
其中,校正控件是指用于触发词语校正的控件。控件是用户可与之交互以输入或操作数据的对象,例如,控件可以是界面上的按钮。
校正参数设置入口是用于设置校正参数的入口。校正参数设置入口可以有一个或多个。校正参数包括标准词集合和文本生成模型中的至少一者,也就是,针对词语校正任务,可以选择使用哪个标准词集合,也可以选择使用哪个文本生成模型。
目标校正参数是指从候选校正参数中选中的校正参数。目标校正参数包括标准词目标集合、目标文本生成模型中的至少一者。标准词目标集合用于确定待校正词对应的候选标准词集合,例如,基于目标待校正词分别和标准词目标集合中各个标准词之间的词相似度,从标准词目标集合中确定目标待校正词对应的候选标准词集合。目标文本生成模型用于输出目标答案。
具体地,除了向用户展示目标待校正词,还可以向用户展示针对目标待校正词的校正控件和校正参数设置入口。用户可以通过校正参数设置入口设置用于词语校正的相关参数。例如,校正参数设置入口为下拉菜单,在下拉菜单中显示有各种候选校正参数,用户可以从候选校正参数中进行选择。终端响应于针对校正参数设置入口的触发操作,选中目标校正参数。进一步的,用户可以触发校正控件,终端响应于针对校正控件的触发操作,获取目标待校正词在基于目标校正参数进行校正后得到的目标标准词并显示。
举例说明,参考图10,在术语标准化界面上,还展示有校正参数设置入口1002,用户可以通过校正参数设置入口设置在词语校正时采用的标准词表。在术语标准化界面上,若用户输入“腰疼病”,选择校正参数,再点击“归一”控件,则展示“腰疼病”在用户选中的目标校正参数下的相关词语校正结果。
在一个实施例中,校正参数设置入口包括标准词集合设置入口和文本生成模型设置入口中的至少一者。标准词设置入口用于设置在词语校正时采用的标准词集合,词语校正结果是从标准词集合中确定的。例如,标准词设置入口用于设置在词语校正时采用的标准词表,标准词表用于确定候选标准词集合。文本生成模型设置入口用于设置在词语校正时采用的文本生成模型,词语校正结果是基于文本生成模型输出的目标答案确定的。例如,文本生成模型设置入口为下拉菜单,在下拉菜单中显示有GPT-3、T5、ChatGPT等LLM,用户可以从中选择至少一个模型作为目标文本生成模型。
上述实施例中,在进行词语校正时,还可以设置校正参数,实现按需校正、个性化校正,保障词语校正的灵活性。
在一个实施例中,文本处理方法还包括:
显示反馈控件;响应于针对反馈控件的触发操作,触发将目标待校正词和目标标准词作为异常词样本对反馈至目标设备。
其中,反馈控件是指用于反馈信息的控件。目标设备可以是预设设备,例如,预先将运维人员对应的设备设置为目标设备。目标设备也可以是用户选择的设备。
具体地,除了向用户展示目标待校正词和目标待校正词对应的目标标准词,还可以向用户展示反馈控件,用户可以通过反馈控件来反馈异常的词语校正结果。终端上显示有反馈控件,用户可以触发反馈控件,终端响应于针对反馈控件的触发操作,触发将目标待校正词和目标标准词作为异常词样本对反馈至目标设备,以便将异常的词语校正结果快速通知相关人员,进而对词语校正过程进行优化。
举例说明,参考图10,在术语标准化界面上,还展示有“反馈”控件1004,用户可以通过“反馈”控件反馈明显错误的词语校正结果。
上述实施例中,反馈控件用于反馈异常的词语校正结果,以便优化词语校正过程。
在一个具体的实施例中,本申请方法可以应用于医疗诊断标准化。医疗诊断标准化能够提高医疗诊断的准确性、一致性和可靠性,促进医疗质量的提升和医疗资源的优化分配。通过建立标准化的诊断流程和规范化的诊断标准,可以减轻医生的工作负担和降低医疗成本。本申请方法具体可以应用于医疗诊断标准化下的诊断词标准化,以规范不同医院、不同医生诊断同一疾病所使用的诊断词。
本申请方法还可以应用于医疗数据标准化,对医疗数据进行标准化处理,提高数据的可比性和可重复性,促进医学研究和医学科学的进步。医疗数据包括检查记录、医学资料、医学研究等与医学相关的数据。
本申请方法是一种基于语境学习和提示学习的方法,整体架构如图11所示,包括检索器、生成器以及语境学习三部分。
检索器负责从海量的标准词(即标准词表)中检索出与原始词相关的TOP-K标准词(K值远小于标准词的数量)作为生成器生成的候选目标,避免词表空间太大对于生成器要求过高,难以输出期望的结果。另外,检索器也负责从收集的诊断标准化数据集上检索出和输入原始词相关的标注例子提供给生成器辅助判断,降低问题的难度。
对于给定的数据集(xi,yi)∈D,xi表示第i个原始词,yi表示原始词xi对应的目标标准词。接着,我们需要构建一个数据库:
S={(xi,ki,yi,gi)|ki=f(xi),(xi,yi)∈D}
其中ki=f(xi),f(*)表示经过模型(例如,BERT模型)得到的特征向量表示;gi是原始词xi通过上面检索器得到的K个候选标准词集合。
对于要预测的原始词x,首先根据模型得到该原始词的特征向量f(x),然而将f(x)和数据库中所有的ki计算余弦相似度,并检索出相似度最高的L个词样本对。也就是,通过比较原始词和原始词之间的特征向量的相似度召回相关的示例,相关示例中包含了相关原始词以及对应的候选标准词。参考图11,对于待校正的原始词“多耳道霉菌感染”,利用检索器找回2个相似度最高的其他原始词,分别为“双耳道霉菌感染”、“双耳道真菌感染”。“双耳道霉菌感染”对应的3个相似度最高的候选标准词,分别为“真菌性外耳道炎”、“外耳道曲霉菌病”、“外耳道炎”,其中,“真菌性外耳道炎”为“双耳道霉菌感染”对应的目标标准词。“双耳道真菌感染”对应的3个相似度最高的候选标准词,分别为“真菌性外耳道炎”、“真菌性外耳炎”、“真菌病引起的外耳炎”,其中,“真菌性外耳道炎”为“双耳道真菌感染”对应的目标标准词。
语境学习就负责将检索器返回的内容通过提示模板生成自然语言描述或者指令使得生成器完成特定任务。生成器在接收到语境学习生成的文本之后,根据提示输入的上下文信息和知识预测出答案。随后,从生成的答案中提取包含的标准词作为待校正的原始词所对应的目标标准词。参考图12,通过本申请方法,原始词“外耳道霉菌感染”对应的目标标准词为“真菌性外耳道炎”,原始词“肌张力减低原因未明”对应的目标标准词为“肌张力缺失”。
针对本申请方法,利用检索器从标准词中召回TOP-K个候选标准词,从而缩小生成器生成词语的范围,避免生成不在词表中的词语。利用检索器从收集的诊断标准化数据集上检索出和输入原始词相关的标注样本提供给生成器,相当于显式地引入了更多的上下文知识,降低问题的难度,提升生成器对标准化任务、词语校正任务的认知和理解。利用简短的自然语言提示来指导生成器完成任务,从而减少训练数据的需求和优化难度。通过先检索后生成的方式,一方面减少生成器生成内容的范围,另外也提供合适的示例帮助生成器更好地推理,通过提示指令使得生成器按照要求完成标准化任务,保障词语校正、词语标准化的准确性。基于语境学习和提示学习的方法能够有效地结合生成器强大的知识和推理能力,减少了训练数据的需求和优化难度,提高了模型的泛化性能。
在一个具体的实施例中,本申请方法还可以应用于搜索场景中的搜索词标准化。在用户搜索时,获取用户的搜索词,通过本申请方法对搜索词进行词语校正,得到搜索词对应的目标标准词,通过搜索词对应的目标标准词,从资源库中召回相关资源作为搜索结果,向用户展示搜索结果。这样,先进行词语校正再进行搜索,能够保障搜索结果的准确性。可以理解,资源库中各个资源分别对应的资源介绍信息通常都是采用标准术语,通过将标准的搜索词和标准的资源介绍信息进行匹配来召回与搜索词相关的资源,可以保障召回与搜索词强相关的资源,进而保障搜索结果的准确性,从而避免用户重复搜索,节约计算机资源。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本处理方法的文本处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本处理装置实施例中的具体限定可以参见上文中对于文本处理方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供了一种文本处理装置1300,包括:目标问题获取模块1302、参考样例获取模块1304、模型处理模块1306和目标标准词确定模块1308,其中:
目标问题获取模块1302,用于获取目标待校正词对应的目标问题;目标问题包括目标待校正词和目标待校正词对应的候选标准词集合。
参考样例获取模块1304,用于获取目标待校正词对应的参考样例;参考样例包括参考问题和参考问题对应的参考答案,参考问题包括目标待校正词对应的参考待校正词和参考待校正词对应的候选标准词集合,参考答案包括参考待校正词对应的、从参考待校正词对应的候选标准词集合中确定的参考标准词。
模型处理模块1306,用于调用目标文本生成模型,对参考样例和目标问题进行语境学习,得到目标问题对应的目标答案。
目标标准词确定模块1308,用于基于目标答案确定目标待校正词对应的目标标准词。
在一个实施例中,目标问题获取模块1302还用于:
获取目标待校正词和标准词集合;
基于目标待校正词分别和标准词集合中各个标准词之间的词相似度,从标准词集合中确定目标待校正词对应的候选标准词集合;
将目标待校正词作为目标题干,将目标待校正词对应的候选标准词集合中各个候选标准词分别作为目标题干对应的候选答案,基于目标题干和候选答案,得到目标待校正词对应的目标问题。
在一个实施例中,目标问题获取模块1302还用于:
分别对目标待校正词和各个标准词进行特征提取,得到目标待校正词和各个标准词分别对应的词特征;
基于目标待校正词对应的词特征分别和各个标准词对应的词特征之间的特征距离,从标准词集合中确定目标待校正词对应的候选标准词集合。
在一个实施例中,目标问题获取模块1302还用于:
获取提示模板;提示模板包括问题对应的题干填充位和候选答案填充位、以及答案对应的目标答案填充位;
在提示模板中,将目标待校正词填充至题干填充位,将目标待校正词对应的候选标准词集合中各个候选标准词分别填充至各个候选答案填充位,得到目标问题。
在一个实施例中,参考样例获取模块1304还用于:
获取目标待校正词对应的参考待校正词、参考待校正词对应的参考标准词,获取参考待校正词对应的候选标准词集合;参考待校正词对应的候选标准词集合包括参考标准词;
获取提示模板;提示模板包括问题对应的题干填充位和候选答案填充位、以及答案对应的目标答案填充位;
在提示模板中,将参考待校正词填充至题干填充位,将参考待校正词对应的候选标准词集合中各个候选标准词分别填充至各个候选答案填充位,将参考标准词填充至目标答案填充位,得到目标待校正词对应的参考样例。
在一个实施例中,参考样例获取模块1304还用于:
获取词样本对集合;词样本对集合包括样本待校正词和样本待校正词对应的样本标准词;
基于目标待校正词分别和词样本对集合中各个样本待校正词之间的词相似度,从各个样本待校正词中确定目标待校正词对应的参考待校正词;
从词样本对集合中,将参考待校正词对应的样本标准词作为参考待校正词对应的参考标准词。
在一个实施例中,模型处理模块1306还用于:
拼接参考样例和目标问题,得到目标文本;
将目标文本输入目标文本生成模型,以使目标文本生成模型参照参考样例,从目标待校正词对应的候选标准词集合中确定目标问题对应的目标答案。
在一个实施例中,文本处理装置1300还包括:
模型训练模块,用于获取训练文本集合;训练文本集合包括训练文本和训练文本对应的标签文本;标签文本为训练文本的下文;将训练文本集合中的训练文本输入初始文本生成模型,得到训练文本对应的预测文本;基于同一训练文本对应的预测文本和标签文本之间的文本差异,调整初始文本生成模型的模型参数,直至满足收敛条件,得到目标文本生成模型。
在一个实施例中,目标待校正词是对象检测结果记录集合中的对象检测结果记录对应的关键词。文本处理装置1300还包括:
数据分类模块,用于基于对象检测结果记录集合中各个对象检测结果记录分别对应的目标标准词,对各个对象检测结果记录进行分类,得到各个对象检测结果记录子集。
在一个实施例中,文本处理装置1300还包括:
词语显示模块,用于显示目标待校正词;响应于针对目标待校正词的校正操作,进入获取目标待校正词对应的目标问题的步骤;
词语显示模块,还用于显示目标待校正词对应的目标标准词。
在一个实施例中,词语显示模块还用于:
显示针对目标待校正词的校正控件和校正参数设置入口;
响应于针对校正参数设置入口的触发操作,选中目标校正参数;目标校正参数包括标准词目标集合、目标文本生成模型中的至少一者,标准词目标集合用于确定待校正词对应的候选标准词集合;
响应于针对校正控件的触发操作,进入获取目标待校正词对应的目标问题的步骤。
在一个实施例中,文本处理装置1300还包括:
数据反馈模块,用于显示反馈控件;响应于针对反馈控件的触发操作,触发将目标待校正词和目标标准词作为异常词样本对反馈至目标设备。
上述文本处理装置,目标待校正词对应的参考样例是与目标待校正词相关的问答示例,有助于指导模型理解词语校正任务,目标待校正词对应的目标问题是要求回答目标待校正词的词语校正结果的问题,将参考样例和目标问题输入模型,模型基于参考样例所引入的问答知识来回答目标问题,能够降低模型回答目标问题的难度,从而无需预先标注校正前后的词语作为模型的训练数据,模型也可以快速确定目标问题对应的目标答案,减少了训练数据的需求,提高了词语校正效率。
上述文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储标准词集合、目标文本生成模型等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14、15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (16)
1.一种文本处理方法,其特征在于,所述方法包括:
获取目标待校正词对应的目标问题;所述目标问题包括目标待校正词和所述目标待校正词对应的候选标准词集合;
获取所述目标待校正词对应的参考样例;所述参考样例包括参考问题和所述参考问题对应的参考答案,所述参考问题包括目标待校正词对应的参考待校正词和所述参考待校正词对应的候选标准词集合,所述参考答案包括所述参考待校正词对应的、从所述参考待校正词对应的候选标准词集合中确定的参考标准词;
调用目标文本生成模型,对所述参考样例和所述目标问题进行语境学习,得到所述目标问题对应的目标答案;
基于所述目标答案确定所述目标待校正词对应的目标标准词。
2.根据权利要求1所述的方法,其特征在于,所述获取目标待校正词对应的目标问题,包括:
获取目标待校正词和标准词集合;
基于所述目标待校正词分别和所述标准词集合中各个标准词之间的词相似度,从所述标准词集合中确定所述目标待校正词对应的候选标准词集合;
将所述目标待校正词作为目标题干,将所述目标待校正词对应的候选标准词集合中各个候选标准词分别作为所述目标题干对应的候选答案,基于所述目标题干和所述候选答案,得到所述目标待校正词对应的目标问题。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标待校正词分别和所述标准词集合中各个标准词之间的词相似度,从所述标准词集合中确定所述目标待校正词对应的候选标准词集合,包括:
分别对所述目标待校正词和所述各个标准词进行特征提取,得到所述目标待校正词和所述各个标准词分别对应的词特征;
基于所述目标待校正词对应的词特征分别和所述各个标准词对应的词特征之间的特征距离,从所述标准词集合中确定所述目标待校正词对应的候选标准词集合。
4.根据权利要求2所述的方法,其特征在于,所述将所述目标待校正词作为目标题干,将所述目标待校正词对应的候选标准词集合中各个候选标准词分别作为所述目标题干对应的候选答案,基于所述目标题干和所述候选答案,得到所述目标待校正词对应的目标问题,包括:
获取提示模板;所述提示模板包括问题对应的题干填充位和候选答案填充位、以及答案对应的目标答案填充位;
在所述提示模板中,将所述目标待校正词填充至所述题干填充位,将所述目标待校正词对应的候选标准词集合中各个候选标准词分别填充至各个候选答案填充位,得到目标问题。
5.根据权利要求1所述的方法,其特征在于,所述获取所述目标待校正词对应的参考样例,包括:
获取所述目标待校正词对应的参考待校正词、所述参考待校正词对应的参考标准词,获取所述参考待校正词对应的候选标准词集合;所述参考待校正词对应的候选标准词集合包括所述参考标准词;
获取提示模板;所述提示模板包括问题对应的题干填充位和候选答案填充位、以及答案对应的目标答案填充位;
在所述提示模板中,将所述参考待校正词填充至所述题干填充位,将所述参考待校正词对应的候选标准词集合中各个候选标准词分别填充至各个候选答案填充位,将所述参考标准词填充至所述目标答案填充位,得到所述目标待校正词对应的参考样例。
6.根据权利要求5所述的方法,其特征在于,所述获取所述目标待校正词对应的参考待校正词、所述参考待校正词对应的参考标准词,包括:
获取词样本对集合;所述词样本对集合包括样本待校正词和所述样本待校正词对应的样本标准词;
基于所述目标待校正词分别和所述词样本对集合中各个样本待校正词之间的词相似度,从所述各个样本待校正词中确定所述目标待校正词对应的参考待校正词;
从所述词样本对集合中,将所述参考待校正词对应的样本标准词作为所述参考待校正词对应的参考标准词。
7.根据权利要求1所述的方法,其特征在于,所述调用目标文本生成模型,对所述参考样例和所述目标问题进行语境学习,得到所述目标问题对应的目标答案,包括:
拼接所述参考样例和所述目标问题,得到目标文本;
将所述目标文本输入目标文本生成模型,以使所述目标文本生成模型参照所述参考样例,从所述目标待校正词对应的候选标准词集合中确定所述目标问题对应的目标答案。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练文本集合;所述训练文本集合包括训练文本和所述训练文本对应的标签文本;所述标签文本为所述训练文本的下文;
将所述训练文本集合中的训练文本输入初始文本生成模型,得到所述训练文本对应的预测文本;
基于同一训练文本对应的预测文本和标签文本之间的文本差异,调整所述初始文本生成模型的模型参数,直至满足收敛条件,得到目标文本生成模型。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述目标待校正词是对象检测结果记录集合中的对象检测结果记录对应的关键词;
所述方法还包括:
基于所述对象检测结果记录集合中各个对象检测结果记录分别对应的目标标准词,对所述各个对象检测结果记录进行分类,得到各个对象检测结果记录子集。
10.根据权利要求1至8中任一项所述的方法,其特征在于,所述获取目标待校正词对应的目标问题之前,所述方法还包括:
显示目标待校正词;
响应于针对所述目标待校正词的校正操作,进入所述获取目标待校正词对应的目标问题的步骤;
所述基于所述目标答案确定所述目标待校正词对应的目标标准词之后,所述方法还包括:
显示所述目标待校正词对应的目标标准词。
11.根据权利要求10所述的方法,其特征在于,所述响应于针对所述目标待校正词的校正操作,进入所述获取目标待校正词对应的目标问题的步骤,包括:
显示针对所述目标待校正词的校正控件和校正参数设置入口;
响应于针对所述校正参数设置入口的触发操作,选中目标校正参数;所述目标校正参数包括标准词目标集合、目标文本生成模型中的至少一者,所述标准词目标集合用于确定待校正词对应的候选标准词集合;
响应于针对所述校正控件的触发操作,进入所述获取目标待校正词对应的目标问题的步骤。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
显示反馈控件;
响应于针对所述反馈控件的触发操作,触发将所述目标待校正词和所述目标标准词作为异常词样本对反馈至目标设备。
13.一种文本处理装置,其特征在于,所述装置包括:
目标问题获取模块,用于获取目标待校正词对应的目标问题;所述目标问题包括目标待校正词和所述目标待校正词对应的候选标准词集合;
参考样例获取模块,用于获取所述目标待校正词对应的参考样例;所述参考样例包括参考问题和所述参考问题对应的参考答案,所述参考问题包括目标待校正词对应的参考待校正词和所述参考待校正词对应的候选标准词集合,所述参考答案包括所述参考待校正词对应的、从所述参考待校正词对应的候选标准词集合中确定的参考标准词;
模型处理模块,用于调用目标文本生成模型,对所述参考样例和所述目标问题进行语境学习,得到所述目标问题对应的目标答案;
目标标准词确定模块,用于基于所述目标答案确定所述目标待校正词对应的目标标准词。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310460648.6A CN116975218A (zh) | 2023-04-23 | 2023-04-23 | 文本处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310460648.6A CN116975218A (zh) | 2023-04-23 | 2023-04-23 | 文本处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975218A true CN116975218A (zh) | 2023-10-31 |
Family
ID=88482160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310460648.6A Pending CN116975218A (zh) | 2023-04-23 | 2023-04-23 | 文本处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975218A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556817A (zh) * | 2024-01-10 | 2024-02-13 | 国开启科量子技术(安徽)有限公司 | 基于量子电路的文本检测方法、装置、设备及介质 |
CN117574286A (zh) * | 2024-01-11 | 2024-02-20 | 阿里健康科技(杭州)有限公司 | 标签值的确定方法、装置、设备和存储介质 |
CN118410792A (zh) * | 2024-04-26 | 2024-07-30 | 深圳市前海恒道智融信息技术有限公司广州分公司 | 一种基于ai模型的合同数据管理方法及系统 |
-
2023
- 2023-04-23 CN CN202310460648.6A patent/CN116975218A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556817A (zh) * | 2024-01-10 | 2024-02-13 | 国开启科量子技术(安徽)有限公司 | 基于量子电路的文本检测方法、装置、设备及介质 |
CN117556817B (zh) * | 2024-01-10 | 2024-05-24 | 国开启科量子技术(安徽)有限公司 | 基于量子电路的大模型生成文本检测方法、装置、设备 |
CN117574286A (zh) * | 2024-01-11 | 2024-02-20 | 阿里健康科技(杭州)有限公司 | 标签值的确定方法、装置、设备和存储介质 |
CN117574286B (zh) * | 2024-01-11 | 2024-05-24 | 阿里健康科技(杭州)有限公司 | 标签值的确定方法、装置、设备和存储介质 |
CN118410792A (zh) * | 2024-04-26 | 2024-07-30 | 深圳市前海恒道智融信息技术有限公司广州分公司 | 一种基于ai模型的合同数据管理方法及系统 |
CN118410792B (zh) * | 2024-04-26 | 2024-10-25 | 深圳市前海恒道智融信息技术有限公司 | 一种基于ai模型的合同数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN111274373B (zh) | 一种基于知识图谱的电子病历问答方法及系统 | |
CN112149414B (zh) | 文本相似度确定方法、装置、设备及存储介质 | |
CN116975218A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN112016295B (zh) | 症状数据处理方法、装置、计算机设备及存储介质 | |
CN112287089B (zh) | 用于自动问答系统的分类模型训练、自动问答方法及装置 | |
KR102424085B1 (ko) | 기계-보조 대화 시스템 및 의학적 상태 문의 장치 및 방법 | |
CN112084789B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN116994694B (zh) | 基于信息提取的患者病历数据筛选方法、装置和介质 | |
CN117094395B (zh) | 对知识图谱进行补全的方法、装置和计算机存储介质 | |
WO2021151356A1 (zh) | 分诊数据处理方法、装置、计算机设备及存储介质 | |
CN110517767A (zh) | 辅助诊断方法、装置、电子设备及存储介质 | |
CN111651579B (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
CN118170892A (zh) | 体检报告影像学检查辅助解读方法及装置 | |
CN118098564A (zh) | 基于多模态llm的自动辅诊方法及其模型构建方法 | |
CN118013001A (zh) | 基于知识库和大语言模型的互动式知识交互系统 | |
CN117877660A (zh) | 基于语音识别的医学报告获取方法及系统 | |
CN113704481A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN117009570A (zh) | 一种基于位置信息与置信度感知的图文检索方法及装置 | |
Jun et al. | Hierarchical multiples self-attention mechanism for multi-modal analysis | |
CN113672701B (zh) | 基于机器学习的文本匹配方法、装置、设备及存储介质 | |
CN116028634A (zh) | 实体链接的构建方法、装置、电子设备和可读存储介质 | |
CN116226320A (zh) | 一种预测下文信息的方法、装置、电子设备及存储介质 | |
CN117931858B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN118132735B (zh) | 医疗规则库的生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |