CN112000767A - 一种基于文本的信息抽取方法和电子设备 - Google Patents

一种基于文本的信息抽取方法和电子设备 Download PDF

Info

Publication number
CN112000767A
CN112000767A CN202010759112.0A CN202010759112A CN112000767A CN 112000767 A CN112000767 A CN 112000767A CN 202010759112 A CN202010759112 A CN 202010759112A CN 112000767 A CN112000767 A CN 112000767A
Authority
CN
China
Prior art keywords
information
similarity
statement
pinyin
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010759112.0A
Other languages
English (en)
Inventor
杨志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deep Thinking Of Artificial Intelligence Technology Shanghai Co ltd
Original Assignee
Deep Thinking Of Artificial Intelligence Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deep Thinking Of Artificial Intelligence Technology Shanghai Co ltd filed Critical Deep Thinking Of Artificial Intelligence Technology Shanghai Co ltd
Priority to CN202010759112.0A priority Critical patent/CN112000767A/zh
Publication of CN112000767A publication Critical patent/CN112000767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

本申请公开了一种基于文本的信息抽取方法和电子设备,包括:对于文本中的每一行语句Li,对该行语句Li进行纠错处理后,确定纠错后的语句与预设知识库中每条信息的相似度,并根据所述相似度,确定该行语句Li对应的所述信息的候选集合;根据所述候选集合中每条信息对应的所述相似度以及与该行语句Li之间的长度差,按照相似度优先的原则,确定所述候选集合中与该行语句Li相匹配的信息。应用本申请公开的技术方案,能够自动、准确地从文本中提取出预设信息。

Description

一种基于文本的信息抽取方法和电子设备
技术领域
本申请涉及计算机应用技术领域,特别涉及一种基于文本的信息抽取方法和电子设备。
背景技术
目前,为了确保客户服务质量,很多企业需要对客服人员的服务水平进行监管。在该监管过程中,需要对客服人员与客户之间的交互内容进行合规性审查,以对客服人员的服务水平进行评测。例如,审查客服人员是否在与客户的交互中向客户提出了客户调研要求提出的所有问题。
目前尚未提出一种智能化的信息提取方法,以满足企业的上述监管需要。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于文本的信息抽取方法和电子设备,能够自动、准确地从文本中提取出预设信息。
为了达到上述目的,本发明实施例提出的技术方案为:。
一种基于文本的信息抽取方法,包括:
对于文本中的每一行语句Li,对该行语句Li进行纠错处理后,确定纠错后的语句与预设知识库中每条信息的相似度,并根据所述相似度,确定该行语句Li对应的所述信息的候选集合;
根据所述候选集合中每条信息对应的所述相似度以及与该行语句Li之间的长度差,按照相似度优先的原则,确定所述候选集合中与该行语句Li相匹配的信息。
较佳地,利用字位置匹配的方式和拼音位置匹配的方式,确定纠错后的语句与所述知识库中每条信息的相似度。
较佳地,所述确定纠错后的语句与预设知识库中每条信息的相似度,并根据所述相似度,确定该行语句Li对应的所述信息的候选集合包括:
对于知识库中的每条信息Mj,按照字位置匹配的方式,计算所述语句Li与该条信息Mj的字匹配相似度;如果所述字匹配相似度大于等于预设的字匹配相似度阈值,则将所述字匹配相似度,确定为所述语句Li与该条信息Mj的相似度,并将该条信息Mj加入所述候选集合;否则,按照拼音位置匹配的方式,计算所述语句Li与该条信息Mj的拼音匹配相似度,如果所述拼音匹配相似度大于等于预设的拼音匹配相似度阈值,则从所述字匹配相似度和所述拼音匹配相似度中选择出最大值,作为所述语句Li与该条信息Mj的相似度,并将该条信息Mj加入所述候选集合。
较佳地,所述字匹配相似度阈值大于所述拼音匹配相似度阈值。
较佳地,所述按照字位置匹配的方式,计算所述语句Li与该条信息Mj的字匹配相似度包括:
对于所述信息Mj中的每个字Wk,查找该字Wk在所述语句Li中对应的位置;
对于所述信息Mj中的每个字Wk,如果该字Wk在所述语句Li中对应的位置与字Wk+1在所述语句Li中对应位置之间的距离小于预设的距离阈值,则将该字Wk和字Wk+1确定为有效匹配字,其中,所述字Wk+1为所述信息Mj中所述字Wk之后的相邻字;
计算所述信息Mj中的有效匹配字数量与所述信息Mj长度的比值,将所述比值确定为所述语句Li与该条信息Mj的字匹配相似度。
较佳地,所述按照拼音位置匹配的方式,计算所述语句Li与该条信息Mj的拼音匹配相似度包括:
将所述语句Li转换为拼音格式的语句Li';
对于信息Mj'中每个字的拼音Py,查找该拼音Py在所述语句Li'中对应的位置;其中,所述信息Mj'为所述信息Mj的拼音格式文本;
对于信息Mj'中每个字的拼音Py,如果该拼音Py在所述语句Li'中对应的位置与拼音Py+1在所述语句Li'中对应位置之间的距离小于预设的距离阈值,则将该拼音Py和拼音Py+1确定为有效匹配拼音;其中,所述拼音Py+1为所述信息Mj'中所述拼音Py之后的相邻字的拼音;
计算所述信息Mj'中的有效匹配拼音数量与所述信息Mj长度的比值,将所述比值确定为所述语句Li与该条信息Mj的拼音匹配相似度。
较佳地,所述知识库由若干子库构成,每个子库由若干含义相同或相似但表述方式不同的信息构成,每个子库具有一条标准信息。
较佳地,所述确定所述候选集合中与该行语句Li相匹配的信息包括:
将所述候选集合中的信息,按照相似度的降序排序;其中,对于相似度相同的信息,按照与该行语句Li之间的长度差的升序进行排序;
从所述排序得到的队列中选择出前W条信息;所述W为预设的信息筛选阈值;
从所述W条信息中选择出与该行语句Li的相似度大于预设第一相似度阈值的信息,作为该行语句Li相匹配的信息。
本申请还公开了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如前所述的基于文本的信息抽取方法的步骤。
本申请还公开了一种电子设备,包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
由上述技术方案可见,本申请提出的基于文本的信息抽取方案中,以行为单位对目标文本中的语句进行信息抽取处理,在该信息抽取过程中,先对该行语句进行纠错处理后,然后,再基于纠错后的语句,确定该语句与知识库中每条信息的相似度,最后,再根据所确定的相似度以及信息与该行语句之间的长度差,按照相似度优先的原则,从知识库中选择出与该行语句相匹配的信息,从而可以准确地从该行语句抽取出知识库中的信息。
附图说明
图1为本发明实施例的方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
图1为本发明实施例的方法流程示意图,如图1所示,该实施例实现的基于文本的信息抽取方法主要包括:
步骤101、对于文本中的每一行语句Li,对该行语句Li进行纠错处理后,确定纠错后的语句与预设知识库中每条信息的相似度,并根据所述相似度,确定该行语句Li对应的所述信息的候选集合。
这里,考虑到实际应用中一段对话有可能包含知识库中的多条信息,为此,在本实施例中,将以行为单位执行基本的信息抽取操作,以确保可以从对话语句中抽取出知识库中的所有信息。
具体的,所述文本即需要从中抽取预设信息的文本。例如,可以是客服人员与客户之间的语音对话转换得到的文本。
本领域技术人员可以根据实际需要,构建所述知识库。例如,库中的信息可以为客服人员需要向客户提出的问题。这样,利用本方案即可从客服人员与客户对话的文本文件中,准确地抽取出知识库中设定的问题,进而可以基于抽取结果,对客户的服务是否达标进行审核。
较佳地,考虑到实际应用中,含义相同或相似的信息可以具有多种表述方式。例如,“使用的是中国移动家庭宽带吗”、“使用的是中国移动家庭宽带么”和“使用的是中国移动宽带吗”等这些信息的含义是相同或相似的。为此,为了进一步提高信息抽取的准确性,在具体构建所述知识库时,可以基于知识库中的信息进行扩充,将含义相同或相似但是表述方式不同的信息增加到知识库中。这样,通过对知识库中信息的扩充,可以提高信息抽取的灵活性、宽容性和智能化,不再局限于信息的固定表述形式。具体地,可以采用下述方式实现这一目的。
所述知识库由若干子库构成,每个子库由若干含义相同或相似但表述方式不同的信息构成,每个子库具有一条标准信息。在每个子库中,标准信息之外的其他信息与该标准信息的含义相同或相似,表述方式不同。这样,如果文本中包含了某个标准信息所属子库中的其他信息,也可以从文本中抽取出相应信息,从而提高了信息抽取的宽容度。
为了进一步提高本步骤中相似度确定的准确性,较佳地,可以综合利用字位置匹配的方式和拼音位置匹配的方式,来确定纠错后的语句与所述知识库中每条信息的相似度。
基于上述思想,较佳地,步骤101中可以采用下述方法,确定纠错后的语句与预设知识库中每条信息的相似度,并根据所述相似度,确定该行语句Li对应的所述信息的候选集合:
对于知识库中的每条信息Mj,按照字位置匹配的方式,计算所述语句Li与该条信息Mj的字匹配相似度;如果所述字匹配相似度大于等于预设的字匹配相似度阈值,则将所述字匹配相似度,确定为所述语句Li与该条信息Mj的相似度,并将该条信息Mj加入所述候选集合;否则,按照拼音位置匹配的方式,计算所述语句Li与该条信息Mj的拼音匹配相似度,如果所述拼音匹配相似度大于等于预设的拼音匹配相似度阈值,则从所述字匹配相似度和所述拼音匹配相似度中选择出最大值,作为所述语句Li与该条信息Mj的相似度,并将该条信息Mj加入所述候选集合。
上述方法中,对于知识库中的每条信息Mj,先按照字位置匹配的方式,计算所述语句Li与该条信息Mj的字匹配相似度,当字匹配相似度不够高时,为了避免纠错后的语句中仍然存在谐音错误而影响了相似度计算的准确性,还需要再按照拼音位置匹配的方式,计算语句Li与该条信息Mj的拼音匹配相似度,当拼音匹配相似度足够高时,即大于等于预设的拼音匹配相似度阈值时,则可以将该条信息Mj视为与语句Li匹配的候选信息,因此,将其加入候选集合,以便在后续步骤中,进一步基于该集合中的信息,选择出与语句Li相匹配的信息。
在实际应用中,本领域技术人员可根据实际需要设置所述字匹配相似度阈值和所述拼音匹配相似度阈值。
较佳地,为了提高信息抽取的宽容性,减少文本中的形式错误对信息抽取准确性的影响,可以将所述字匹配相似度阈值大于所述拼音匹配相似度阈值。例如,所述字匹配相似度阈值可以设置为0.95,所述拼音匹配相似度阈值可以设置为0.93。
较佳地,可以采用下述方法按照字位置匹配的方式,计算所述语句Li与该条信息Mj的字匹配相似度:
s1、对于所述信息Mj中的每个字Wk,查找该字Wk在所述语句Li中对应的位置。
s2、对于所述信息Mj中的每个字Wk,如果该字Wk在所述语句Li中对应的位置与字Wk+1在所述语句Li中对应位置之间的距离小于预设的距离阈值,则将该字Wk和字Wk+1确定为有效匹配字,其中,所述字Wk+1为所述信息Mj中所述字Wk之后的相邻字。
s3、计算所述信息Mj中的有效匹配字数量与所述信息Mj长度的比值,将所述比值确定为所述语句Li与该条信息Mj的字匹配相似度。
较佳地,可以采用下述方法按照拼音位置匹配的方式,计算所述语句Li与该条信息Mj的拼音匹配相似度为:
k1、将所述语句Li转换为拼音格式的语句Li'。
k2、对于信息Mj'中每个字的拼音Py,查找该拼音Py在所述语句Li'中对应的位置;其中,所述信息Mj'为所述信息Mj的拼音格式文本。
k3、对于信息Mj'中每个字的拼音Py,如果该拼音Py在所述语句Li'中对应的位置与拼音Py+1在所述语句Li'中对应位置之间的距离小于预设的距离阈值,则将该拼音Py和拼音Py+1确定为有效匹配拼音;其中,所述拼音Py+1为所述信息Mj'中所述拼音Py之后的相邻字的拼音。
k4、计算所述信息Mj'中的有效匹配拼音数量与所述信息Mj长度的比值,将所述比值确定为所述语句Li与该条信息Mj的拼音匹配相似度。
在实际应用中,语音转换的文本中难免会有一些错误。例如,对话语句“使用的是中国移动家庭宽带吗”经过语音至文本的转换后,可能会被转换成“使用的是中国移动家庭款带吗”。为此,在步骤101中对于文本中的每一行语句Li,在确定其与知识库中每条信息的相似度之前,需要先对其进行纠错处理,对语音转换的一些错误进行纠正,以提高所确定的相似度的准确性。例如,“使用的是中国移动家庭款带吗”经过纠错处理后,可以得到正确的语义表达语句“使用的是中国移动家庭宽带吗”。具体的纠错处理可以采用现有方法实现。较佳地,可以采用下述步骤进行纠错处理,但不限于此。
步骤x1、对语句进行文本检错。
本步骤是对文本中的错误进行检查。具体地,首先将混淆词添加到疑似词列表中,然后将未登录词添加到疑似词列表,最后采用2-gram、3-gram语言模型进行错字检错判断。将文本中不符合语言习惯时,输出检错结果。
步骤x2、对检错结果进行纠错。
本步骤是对上一步骤检查出来的错误尝试纠正。具体地,可以通过编辑距离、最长公共子串和拼音相似度来获取疑似错词来获取疑似正确词,并对疑似正确词语中进行困惑度得分排序。选取困惑度分值最小的作为正确词,模型将自主替换掉错误词。
步骤x3、对纠错结果进行验证。
本步骤是对上一步骤的纠错结果进行验证。
步骤102、根据所述候选集合中每条信息对应的所述相似度以及与该行语句Li之间的长度差,按照相似度优先的原则,确定所述候选集合中与该行语句Li相匹配的信息。
本步骤中,为了确保相似度的准确性,需要按照相似度优先的原则,确定所述候选集合中与该行语句Li相匹配的信息。较佳地,当出现多个信息时,优先选择相似度高的信息作为与该行语句Li相匹配的信息,当多个信息相似度相同时,从中选择长度与语句Li接近的信息,作为与语句Li相匹配的信息。
较佳地,当知识库为步骤101中所述的经过扩充的知识库时,可以采用下述几种方法确定所述候选集合中与该行语句Li相匹配的信息,但不限于此:
方法一:
从所述候选集合中,选择出与该行语句Li的相似度最大且大于预设第一相似度阈值的信息;
如果所述选择失败,则确定所述知识库中没有与该行语句Li相匹配的信息;
如果所述选择的结果仅包含一条信息,则将该信息所在子库中的标准信息,确定为与该行语句Li相匹配的信息;
如果所述选择的结果包含多条信息,则从所述结果中选择出与该行语句Li之间的长度差最小的信息Ms,将该信息Ms所在子库中的标准信息,确定为与该行语句Li相匹配的信息。
方法二:
将所述候选集合中的信息,按照相似度的降序排序;其中,对于相似度相同的信息,按照与该行语句Li之间的长度差的升序进行排序;
从所述排序得到的队列中选择出前W条信息;所述W为预设的信息筛选阈值;
从所述W条信息中选择出与该行语句Li的相似度大于预设第一相似度阈值的信息,作为该行语句Li相匹配的信息。
所述第一相似度阈值和所述信息筛选阈值,用于控制与一行语句相匹配的信息数量和匹配的准确性,具体地,本领域技术人员可以根据实际需要,通过仿真设置所述第一相似度阈值和所述信息筛选阈值。
在实际应用中,方法一适用于一行语句仅包含一种知识库信息的场景,方法二,则不仅适用于该场景,还适用于一行语句包含多条知识库信息的场景,故相比于前才方法二的应用范围更广,具体地,可由本领域技术人员根据实际需要选择步骤102合适的实现方法。
在实际应用中,并不限于采用上述方法,确定所述候选集合中与该行语句Li相匹配的信息。例如,可以直接从所述候选集合中选择出相似度最大且大于所述第一相似度阈值的信息,作为与当前语句Li相匹配的信息。
在实际应用中,本领域技术人员可以根据实际需要设置所述第一相似度阈值的合适取值。例如,可以是0.98,但不限于此。较佳地,为了提高抽取的准确性,可以设置所述第一相似度阈值大于上述字匹配相似度阈值和拼音匹配相似度阈值。
从上述技术方案,可以看出采用本发明实施例即可智能化地提取出文本中各行中的知识库信息,从而可以获得文本中包含的所有知识库信息,有效克服了文本中的语音转写错误、一段文本包含多条信息等信息抽取困难。
此外,本申请还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如前所述的基于文本的信息抽取方法的步骤。
此外,本申请还提供了一种电子设备,包括如上所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种基于文本的信息抽取方法,其特征在于,包括:
对于文本中的每一行语句Li,对该行语句Li进行纠错处理后,确定纠错后的语句与预设知识库中每条信息的相似度,并根据所述相似度,确定该行语句Li对应的所述信息的候选集合;
根据所述候选集合中每条信息对应的所述相似度以及与该行语句Li之间的长度差,按照相似度优先的原则,确定所述候选集合中与该行语句Li相匹配的信息。
2.如权利要求1所述的方法,其特征在于:利用字位置匹配的方式和拼音位置匹配的方式,确定纠错后的语句与所述知识库中每条信息的相似度。
3.如权利要求2所述的方法,其特征在于:所述确定纠错后的语句与预设知识库中每条信息的相似度,并根据所述相似度,确定该行语句Li对应的所述信息的候选集合包括:
对于知识库中的每条信息Mj,按照字位置匹配的方式,计算所述语句Li与该条信息Mj的字匹配相似度;如果所述字匹配相似度大于等于预设的字匹配相似度阈值,则将所述字匹配相似度,确定为所述语句Li与该条信息Mj的相似度,并将该条信息Mj加入所述候选集合;否则,按照拼音位置匹配的方式,计算所述语句Li与该条信息Mj的拼音匹配相似度,如果所述拼音匹配相似度大于等于预设的拼音匹配相似度阈值,则从所述字匹配相似度和所述拼音匹配相似度中选择出最大值,作为所述语句Li与该条信息Mj的相似度,并将该条信息Mj加入所述候选集合。
4.如权利要求3所述的方法,其特征在于:所述字匹配相似度阈值大于所述拼音匹配相似度阈值。
5.如权利要求3所述的方法,其特征在于:所述按照字位置匹配的方式,计算所述语句Li与该条信息Mj的字匹配相似度包括:
对于所述信息Mj中的每个字Wk,查找该字Wk在所述语句Li中对应的位置;
对于所述信息Mj中的每个字Wk,如果该字Wk在所述语句Li中对应的位置与字Wk+1在所述语句Li中对应位置之间的距离小于预设的距离阈值,则将该字Wk和字Wk+1确定为有效匹配字,其中,所述字Wk+1为所述信息Mj中所述字Wk之后的相邻字;
计算所述信息Mj中的有效匹配字数量与所述信息Mj长度的比值,将所述比值确定为所述语句Li与该条信息Mj的字匹配相似度。
6.如权利要求3所述的方法,其特征在于:所述按照拼音位置匹配的方式,计算所述语句Li与该条信息Mj的拼音匹配相似度包括:
将所述语句Li转换为拼音格式的语句Li';
对于信息Mj'中每个字的拼音Py,查找该拼音Py在所述语句Li'中对应的位置;其中,所述信息Mj'为所述信息Mj的拼音格式文本;
对于信息Mj'中每个字的拼音Py,如果该拼音Py在所述语句Li'中对应的位置与拼音Py+1在所述语句Li'中对应位置之间的距离小于预设的距离阈值,则将该拼音Py和拼音Py+1确定为有效匹配拼音;其中,所述拼音Py+1为所述信息Mj'中所述拼音Py之后的相邻字的拼音;
计算所述信息Mj'中的有效匹配拼音数量与所述信息Mj长度的比值,将所述比值确定为所述语句Li与该条信息Mj的拼音匹配相似度。
7.如权利要求1所述的方法,其特征在于:所述知识库由若干子库构成,每个子库由若干含义相同或相似但表述方式不同的信息构成,每个子库具有一条标准信息。
8.如权利要求7所述的方法,其特征在于:所述确定所述候选集合中与该行语句Li相匹配的信息包括:
将所述候选集合中的信息,按照相似度的降序排序;其中,对于相似度相同的信息,按照与该行语句Li之间的长度差的升序进行排序;
从所述排序得到的队列中选择出前W条信息;所述W为预设的信息筛选阈值;
从所述W条信息中选择出与该行语句Li的相似度大于预设第一相似度阈值的信息,作为该行语句Li相匹配的信息。
9.一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至8中任一项所述的基于文本的信息抽取方法的步骤。
10.一种电子设备,其特征在于,包括如权利要求9所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
CN202010759112.0A 2020-07-31 2020-07-31 一种基于文本的信息抽取方法和电子设备 Pending CN112000767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010759112.0A CN112000767A (zh) 2020-07-31 2020-07-31 一种基于文本的信息抽取方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010759112.0A CN112000767A (zh) 2020-07-31 2020-07-31 一种基于文本的信息抽取方法和电子设备

Publications (1)

Publication Number Publication Date
CN112000767A true CN112000767A (zh) 2020-11-27

Family

ID=73463978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010759112.0A Pending CN112000767A (zh) 2020-07-31 2020-07-31 一种基于文本的信息抽取方法和电子设备

Country Status (1)

Country Link
CN (1) CN112000767A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192497A (zh) * 2021-04-28 2021-07-30 平安科技(深圳)有限公司 基于自然语言处理的语音识别方法、装置、设备及介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020172425A1 (en) * 2001-04-24 2002-11-21 Ramarathnam Venkatesan Recognizer of text-based work
CN101499277A (zh) * 2008-07-25 2009-08-05 中国科学院计算技术研究所 一种服务智能导航方法和系统
US20100254613A1 (en) * 2009-04-07 2010-10-07 Wisers Information Limited System and method for duplicate text recognition
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN102023854A (zh) * 2009-09-18 2011-04-20 上海智问软件技术有限公司 一种基于模板的语义变量抽取方法
CN102117289A (zh) * 2009-12-30 2011-07-06 北京大学 一种从网页中抽取评论内容的方法和装置
CN103218423A (zh) * 2013-04-02 2013-07-24 中国科学院信息工程研究所 数据查询方法及装置
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN104750820A (zh) * 2015-04-24 2015-07-01 中译语通科技(北京)有限公司 一种语料库的过滤方法及装置
CN107180634A (zh) * 2017-06-22 2017-09-19 海信集团有限公司 一种语音交互文本的业务定位方法、装置和终端设备
CN108304480A (zh) * 2017-12-29 2018-07-20 东软集团股份有限公司 一种文本相似度确定方法、装置及设备
CN109255031A (zh) * 2018-09-20 2019-01-22 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN109977412A (zh) * 2019-03-29 2019-07-05 北京林业大学 一种字段值纠错方法、装置、可读介质及存储控制器
CN110134970A (zh) * 2019-07-10 2019-08-16 北京百度网讯科技有限公司 标题纠错方法和装置
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置
CN110941720A (zh) * 2019-09-12 2020-03-31 贵州耕云科技有限公司 一种基于知识库的特定人员信息纠错方法
CN111079412A (zh) * 2018-10-18 2020-04-28 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN111191464A (zh) * 2020-01-17 2020-05-22 珠海横琴极盛科技有限公司 基于组合距离的语义相似度计算方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020172425A1 (en) * 2001-04-24 2002-11-21 Ramarathnam Venkatesan Recognizer of text-based work
CN101499277A (zh) * 2008-07-25 2009-08-05 中国科学院计算技术研究所 一种服务智能导航方法和系统
US20100254613A1 (en) * 2009-04-07 2010-10-07 Wisers Information Limited System and method for duplicate text recognition
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN102023854A (zh) * 2009-09-18 2011-04-20 上海智问软件技术有限公司 一种基于模板的语义变量抽取方法
CN102117289A (zh) * 2009-12-30 2011-07-06 北京大学 一种从网页中抽取评论内容的方法和装置
CN103324621A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种泰语文本拼写纠正方法及装置
CN103218423A (zh) * 2013-04-02 2013-07-24 中国科学院信息工程研究所 数据查询方法及装置
CN104750820A (zh) * 2015-04-24 2015-07-01 中译语通科技(北京)有限公司 一种语料库的过滤方法及装置
CN107180634A (zh) * 2017-06-22 2017-09-19 海信集团有限公司 一种语音交互文本的业务定位方法、装置和终端设备
CN108304480A (zh) * 2017-12-29 2018-07-20 东软集团股份有限公司 一种文本相似度确定方法、装置及设备
CN109255031A (zh) * 2018-09-20 2019-01-22 苏州友教习亦教育科技有限公司 基于知识图谱的数据处理方法
CN111079412A (zh) * 2018-10-18 2020-04-28 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN109460461A (zh) * 2018-11-13 2019-03-12 苏州思必驰信息科技有限公司 基于文本相似度模型的文本匹配方法及系统
CN109977412A (zh) * 2019-03-29 2019-07-05 北京林业大学 一种字段值纠错方法、装置、可读介质及存储控制器
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置
CN110134970A (zh) * 2019-07-10 2019-08-16 北京百度网讯科技有限公司 标题纠错方法和装置
CN110941720A (zh) * 2019-09-12 2020-03-31 贵州耕云科技有限公司 一种基于知识库的特定人员信息纠错方法
CN111191464A (zh) * 2020-01-17 2020-05-22 珠海横琴极盛科技有限公司 基于组合距离的语义相似度计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
约尔尼萨・吾不力卡司木;玉素甫・艾白都拉;: "基于最小编辑距离和词汇库的维吾尔语文本校对系统的设计与算法实现", 信息与电脑(理论版), no. 06, pages 51 - 52 *
赵骥;李晶皎;王丽君;张继生;: "基于HMM的满文文本识别后处理的研究", 中文信息学报, no. 04, pages 65 - 69 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192497A (zh) * 2021-04-28 2021-07-30 平安科技(深圳)有限公司 基于自然语言处理的语音识别方法、装置、设备及介质
CN113192497B (zh) * 2021-04-28 2024-03-01 平安科技(深圳)有限公司 基于自然语言处理的语音识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
CN111369996B (zh) 一种特定领域的语音识别文本纠错方法
CN108962282B (zh) 语音检测分析方法、装置、计算机设备及存储介质
CN111310443B (zh) 一种文本纠错方法和系统
CN107622054B (zh) 文本数据的纠错方法及装置
WO2020215554A1 (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
Zayats et al. Disfluencies and human speech transcription errors
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
CN110232923B (zh) 一种语音控制指令生成方法、装置及电子设备
CN108228574B (zh) 文本翻译处理方法及装置
KR101633556B1 (ko) 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN112836514A (zh) 嵌套实体识别方法、装置、电子设备和存储介质
JP2015187684A (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN111985234B (zh) 语音文本纠错方法
KR101836996B1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN109460558B (zh) 一种语音翻译系统的效果评判方法
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN108304389B (zh) 交互式语音翻译方法及装置
CN112000767A (zh) 一种基于文本的信息抽取方法和电子设备
Ali et al. Multi-reference WER for evaluating ASR for languages with no orthographic rules
CN110442876B (zh) 文本挖掘方法、装置、终端及存储介质
CN110148413B (zh) 语音评测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination