CN113688628B - 文本识别方法、电子设备和计算机可读存储介质 - Google Patents

文本识别方法、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN113688628B
CN113688628B CN202110859729.4A CN202110859729A CN113688628B CN 113688628 B CN113688628 B CN 113688628B CN 202110859729 A CN202110859729 A CN 202110859729A CN 113688628 B CN113688628 B CN 113688628B
Authority
CN
China
Prior art keywords
text
name
calibrated
candidate
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110859729.4A
Other languages
English (en)
Other versions
CN113688628A (zh
Inventor
傅孙奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jining Computer Technology Co ltd
Original Assignee
Shanghai Jining Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jining Computer Technology Co ltd filed Critical Shanghai Jining Computer Technology Co ltd
Priority to CN202110859729.4A priority Critical patent/CN113688628B/zh
Publication of CN113688628A publication Critical patent/CN113688628A/zh
Application granted granted Critical
Publication of CN113688628B publication Critical patent/CN113688628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及互联网技术领域,公开了一种文本识别方法、电子设备和计算机可读存储介质。上述文本识别方法包括:获取包含目标对象名称的待识别文本;遍历预设的目标对象名称的中文内容的集合,将待识别文本中包含的中文内容作为待识别文本的关键词,并得到待识别文本的关键词的集合;根据预设的目标对象名称的全称的集合和关键词的集合,确定各关键词对应的候选全称,并得到候选全称的集合;根据候选全称的集合,确定从待识别文本识别出的目标对象名称。本申请实施例提供的文本识别方法,文本识别过程简洁可视,可以有效提升文本识别的速度和准确度,在一定程度上提升文本识别的容错率和成功率,降低文本识别的成本,提升用户的使用体验。

Description

文本识别方法、电子设备和计算机可读存储介质
技术领域
本申请实施例涉及互联网技术领域,特别涉及一种文本识别方法、电子设备和计算机可读存储介质。
背景技术
人类在生产和生活中,离不开各种文字、报表和文本,随着互联网技术的飞速发展,人类需要处理各种文字、报表和文本的数量爆炸式增加,为了减轻人们的处理文字、报表和文本的压力,提高处理效率,文本识别技术应运而生。文本识别技术可应用于许多领域,如阅读、翻译、文献资料的检索、信件和包裹的分拣、稿件的编辑和校对、大量统计报表和卡片的汇总与分析、银行支票的处理和商品发票的统计汇总等,在某些领域的生产生活中,人类经常需要高准确度的文本识别和快速文本识别,因此,文本识别速度和准确度也是人类重点关注的文本识别技术的性能指标。
发明人发现相关技术中至少存在如下问题:相关技术一般使用分布式全文检索(Elastic Search,简称:ES检索)或预训练模型的方式进行文本识别,然而,ES检索技术需要对待识别文本进行分词,得到的分词很多,因此得出识别结果的耗时很长,文本识别速度很慢,而且,当待识别文本和目标对象名称中包含中英文混合名词时,ES检索的分词结果不够准确,获得的识别结果也就不正确,从而导致文本识别的准确度偏低,而预训练模型需要在前期投入大量的训练时间,文本识别成本比较高,准确度也比较低。
发明内容
本申请实施例的主要目的在于提出一种文本识别方法、电子设备和计算机可读存储介质,文本识别过程简洁可视,可以有效提升文本识别的速度和准确度,在一定程度上提升文本识别的容错率和成功率,降低文本识别的成本,提升用户的使用体验。
为解决上述技术问题,本申请的实施例提供了一种文本识别方法,包括以下步骤:获取包含目标对象名称的待识别文本;遍历预设的所述目标对象名称的中文内容的集合,将所述待识别文本中包含的所述中文内容作为所述待识别文本的关键词,并得到所述待识别文本的关键词的集合;根据预设的所述目标对象名称的全称的集合和所述关键词的集合,确定各关键词对应的候选全称,并得到所述候选全称的集合;其中,所述候选全称中至少包含所述中文内容;根据所述候选全称的集合,确定从所述待识别文本识别出的所述目标对象名称。
为解决上述技术问题,本申请的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文本识别方法。
为解决上述技术问题,本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述文本识别方法。
本申请提出的文本识别方法、电子设备和计算机可读存储介质,相较于基于ES检索对待识别文本进行分词,遍历每个分词,从而在数据库中对分词进行匹配的文本识别技术而言,本申请的实施例,获取包含目标对象名称的待识别文本,遍历预设的目标对象名称的中文内容的集合,将待识别文本中包含的目标对象名称的中文内容作为待识别文本的关键词,并得到待识别文本的关键词的集合,再根据预设的目标对象名称的全称的集合和关键词的集合,确定各关键词对应的候选全称,并得到候选全称的集合,最后根据候选全称的集合,确定从待识别文本识别出的目标对象名称。考虑到用户的用语习惯,需要进行文本识别的待识别文本经常是中文内容与非中文内容混合的待识别文本,目标对象名称的全称也可以是中文内容与非中文内容混合的词,本申请的实施例,先在待识别文本中确定只包含中文内容的关键词,弱化非中文内容对文本识别的影响,再根据关键词确定候选全称,候选全称中是可以包含非中文内容的,从而得到可包含非中文内容的候选全称。本申请确定关键词的过程采用完全匹配,确保中文内容符合用户意图,以提升文本识别的准确性,整个识别处理过程虽然弱化了非中文内容的影响,但最终得到的候选全称可以包含非中文内容,从而提升文本识别的容错率和成功率;同时,本申请的遍历过程无需对待识别文本的每个分词进行遍历,可以减少遍历次数,有效提升文本识别的速度,从而提升用户的使用体验,另外,相较于基于预训练模型进行文本识别的技术而言,本申请的实施例无需使用预训练模型,省去了模型训练的成本,从而可以在一定程度上降低文本识别的成本。
另外,所述关键词的集合中的各关键词互不相同;所述根据预设的所述目标对象名称的全称的集合和所述关键词的集合,确定各关键词对应的候选全称,并得到所述候选全称的集合,包括:遍历预设的所述目标对象名称的全称的集合,将所述全称的集合中包含所述关键词的全称,作为所述关键词对应的候选全称,并得到所述候选全称的集合。
另外,所述根据所述候选全称的集合,确定从所述待识别文本识别出的所述目标对象名称,包括:遍历所述候选全称的集合,根据所述候选全称,确定待校名称;根据所述待校名称,从所述待识别文本中确定待校文本;将所述待校名称和所述待校文本进行对比,得出所述候选全称的保留结果;将保留的候选全称作为从所述待识别文本识别出的所述目标对象名称。
另外,所述根据所述待校名称,从所述待识别文本中确定待校文本,包括:确定所述待校名称对应的关键词的首个关键字在所述待识别文本中的位置A;确定所述待校名称的长度M,并确定所述待校名称的首个中文字符在所述待校名称中的位置N;将所述待识别文本中第A-N+1个字符至第A+M-N个字符作为待校文本。
另外,所述根据所述候选全称,确定待校名称,包括:将所述候选全称作为待校名称;所述将所述待校名称和所述待校文本进行对比,得出所述候选全称的保留结果,包括:判断所述待校名称是否与至少一个所述待校文本完全一致;若所述待校名称与至少一个所述待校文本完全一致,则将所述待校名称对应的候选全称作为保留的候选全称。
另外,所述根据所述候选全称,确定待校名称,包括:根据预设的拆分规则对所述候选全称进行拆分,将拆分后的候选全称作为待校名称;其中,所述拆分规则包括将包含多个非中文内容和多个中文内容的候选全称拆分成一个非中文内容和一个中文内容的组合。
另外,所述将所述待校名称和所述待校文本进行对比,得出所述候选全称的保留结果,包括:判断所述待校文本是否包含非中文内容;若所述待校文本不包含非中文内容,则将所述待校名称对应的候选全称作为保留的候选全称;若所述待校文本包含非中文内容,且所述候选全称对应的至少一个待校名称与所述待校文本完全一致,则将所述候选全称作为保留的候选全称。
另外,所述将所述待校名称和所述待校文本进行对比,得出所述候选全称的保留结果,还包括:若所述关键词对应的所有候选全称均为不保留的候选全称,则将所述关键词对应的所有候选全称都作为保留的候选全称。
另外,所述预设的所述目标对象名称的全称的集合和所述预设的所述目标对象名称的中文内容的集合通过以下步骤获取:获取若干目标对象名称的全称,生成目标对象名称的全称的集合;获取所述目标对象名称的全称的集合中的各目标对象名称的全称的中文部分;对获得的所述各目标对象名称的全称的中文部分进行去重,生成所述目标对象名称的中文内容的集合。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本申请一个实施例中的文本识别方法的流程图一;
图2是根据本申请一个实施例中,根据候选全称的集合,确定从待识别文本识别出的目标对象名称的流程图;
图3是根据本申请一个实施例中,根据待校名称,从待识别文本中确定待校文本的流程图;
图4是根据本申请一个实施例中,将待校名称和待校文本进行对比,得出候选全称的保留结果的流程图一;
图5是根据本申请一个实施例中,将待校名称和待校文本进行对比,得出候选全称的保留结果的流程图二;
图6是根据本申请一个实施例中,获取目标对象名称的全称的集合和目标对象名称的中文内容的集合的流程图;
图7是根据本申请另一个实施例中的文本识别方法的流程图二;
图8是根据本申请另一个实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本申请的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
在相关的基于ES检索的文本识别技术中,服务器可以对获取到的待识别文本进行分词,得到若干个词,并通过一些过滤规则对分词得到的若干个词进行简单地过滤,再将过滤后剩余的词按照遍历的方式,一个一个地从数据库中进行匹配查找,判断数据库中是否有与过滤后剩余的词完全匹配的结果,若数据库中有与过滤后剩余的词完全匹配的结果,则将匹配成功的词作为待识别文本的识别结果进行输出。
本申请的发明人发现,在通过即时聊天的聊天记录、网页信息、新闻资讯等文本信息进行文本识别时,待识别文本的识别目标为中文内容和非中文内容的组合的形式,非中文内容有可能在中文内容前、也有可能在中文内容后,还有可能夹在中文内容的中间,而用户的习惯用语中可能不会出现英文字符,即待识别文本不够精确,比如用户将一段聊天记录作为待识别文本,需要识别这段聊天记录中的药品名称,如维生素A、维生素B1、维生素B2和红霉素等,若待识别文本中包含维生素A,服务器只有能根据待识别文本输出维生素A,文本识别才是准确的、成功的。然而,若服务器使用基于ES检索的文本识别技术,服务器则会对获取到的待识别文本进行分词,比如待识别文本为:“不知道美丽生态会不会像今天的天气一样美丽”,其中目标对象名称为“美丽生态”,但服务器对待识别文本进行分词时,可能会将待识别文本拆分成“美丽”、“生态”和“天气”等词,基于这些词进行完全匹配,无法识别出“美丽生态”这个目标对象名称的全称。
再比如待识别文本为:“吃点青霉素G,每日吃三次,每次吃两片,再补充些维生素,禁烟酒,注意保护肝,多运动”,服务器对待识别文本进行分词时,可能会将待识别文本拆分成“青霉素”、“G”、“维生素”、“烟”、“酒”和“肝”,数据库中存有青霉素G、青霉素V、维生素A、维生素B1、维生素B2、鱼肝油、护肝片、跌打酒和红霉素等药品名称,而基于这些分词从数据库中进行匹配查找,如果只进行完全匹配,则不会输出任何识别结果,如果只进行模糊匹配,则会将“青霉素G”、“青霉素V”、“维生素A”、“维生素B1”、“维生素B2”、“鱼肝油”、“护肝片”和“跌打酒”都作为待识别文本的识别结果输出,“青霉素V”、“鱼肝油”、“护肝片”和“跌打酒”是明显不符合用户的待识别文本意图的识别结果,将不正确的识别结果输出给用户,不能满足用户的实际需求,给用户带来了不好的使用体验。
而在相关的基于预训练模型的文本识别技术中,服务器可以预先基于海量的数据训练出文本识别模型,在进行文本识别时,将待识别文本输入至该预先训练的文本识别模型中,将模型输出的结果作为文本识别结果输出给用户。
本申请的发明人发现,预训练模型需要在前期投入大量的训练时间,文本识别成本很高,同时,训练模型需要海量的数据,且训练出的模型的识别结果并不固定,识别结果并不完全可靠。
为了解决上述的文本识别耗时长、速度慢,文本识别结果不准确、不可靠,文本识别过程成本较高的问题,本申请的实施例提供了一种文本识别方法,应用于电子设备,其中,电子设备可以为终端或服务器,本实施例以及以下个各个实施例中电子设备以服务器为例进行说明。下面对本实施例的文本识别方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本申请的实施例的应用场景可以包括但不限于:对诊断病历、医学论文、医学报告等文本中的药品名称进行识别;对财经新闻、市场调查报告等文本中的股票名称进行识别;对体育新闻、运动员情报等文本中的俱乐部名称进行识别;对科技产品发布会通讯稿、科技产品海报等文本中的汽车名称、手机名称、电脑名称进行识别等。
本实施例的文本识别方法的具体流程可以如图1所示,包括:
步骤101,获取包含目标对象名称的待识别文本。
在具体实现中,服务器可以实时接收用户通过客户端上传的自然语言信息,也可以每隔预设时间从客户端中抓取自然语言信息,用户通过客户端上传的自然语言信息或服务器从客户端中抓取的自然语言信息至少包含一个目标对象和目标对象名称,用户通过客户端上传的自然语言信息或服务器从客户端中抓取的自然语言信息可以为文本形式的自然语言信息,也可以为语音形式的自然语言信息,若服务器获取到的是文本形式的自然语言信息,服务器可以直接将该文本形式的自然语言信息作为包含目标对象名称的待识别文本;若服务器获取到的是语音形式的自然语言信息,服务器可以先将该语音形式的自然语言信息转换成文本形式的自然语言信息,再将转换得到的文本形式的自然语言信息作为包含目标对象名称的待识别文本。
步骤102,遍历预设的目标对象名称的中文内容的集合,将待识别文本中包含的目标对象名称的中文内容作为待识别文本的关键词,并得到待识别文本的关键词的集合。
在具体实现中,服务器获取到包含目标对象名称的待识别文本后,可以以待识别文本为基准,遍历预设的目标对象名称的中文内容的集合,将待识别文本中包含的目标对象名称的中文内容作为待识别文本的关键词,并得到待识别文本的关键词的集合,其中预设的目标对象名称的中文内容的集合可以由本领域的技术人员根据实际需要进行设置,本实施例对此不做具体限定。
在一个例子中,目标对象为股票,目标对象名称为股票名称,目标对象名称的中文内容即股票名称的中文内容,股票名称的中文内容的集合中包括若干股票名称的中文内容,如甲子乙丑、丙辰、丁亥、戊寅己卯、庚申、辛未和癸酉等,待识别文本为:“哥,听说今天A丙辰A股、丙辰B股涨了0.1,我还听说甲子乙丑和丁亥也不错,就是不知道戊寅己卯今天的走势有没有能一转颓势,hhh庚申C也想看看庚申D以及辛未B”,服务器依次遍历股票名称的中文内容的集合中的:甲子乙丑、丙辰、丁亥、戊寅己卯、庚申、辛未和癸酉等,确定待识别文本中包含的股票名称的中文内容有:甲子乙丑、丙辰、丁亥、戊寅己卯、庚申和辛未,服务器可以将“甲子乙丑、丙辰、丁亥、戊寅己卯、庚申和辛未”作为待识别文本的关键词,并得到待识别文本的关键词的集合。
步骤103,根据预设的目标对象名称的全称的集合和关键词的集合,确定各关键词对应的候选全称,并得到候选全称的集合。
在具体实现中,服务器在得到待识别文本的关键词的集合后,可以根据预设的目标对象名称的全称的集合和关键词的集合,确定各关键词对应的候选全称,并得到候选全称的集合,其中,目标对象名称的全称全称中至少包含目标对象名称的中文内容,预设的目标对象名称的全称的集合可以由本领域的技术人员根据实际需要进行设置,本申请的实施例对此不做具体限定。
在一个例子中,服务器在得到待识别文本的关键词的集合后,可以依次遍历待识别文本的关键词的集合中的每一个关键词,在预设的目标对象名称的全称的集合中进行匹配,将包含某一关键词的目标对象名称的全称作为该关键词对应的候选全称,并得到候选全称的集合。
比如:目标对象为药品,目标对象名称为药品名称,目标对象名称的全称即药品名称的全称,服务器得到的关键词的集合中包括:维生素和红霉素,预设的药品名称的全称的集合中包括:维生素A、维生素B1、维生素B2、维生素C、维生素D、青霉素、罗红霉素、土霉素、红霉素等,服务器依次遍历“维生素”和“红霉素”,在药品名称的全称的集合中,确定包含该关键词的药品名称的全称,并将包含该关键词的药品名称的全称作为该关键词对应的候选全称,服务器确定维生素对应的候选全称为维生素A、维生素B1、维生素B2、维生素C和维生素D,红霉素对应的候选全称为红霉素,并得到候选全称的集合。
步骤104,根据候选全称的集合,确定从待识别文本识别出的目标对象名称。
在一个例子中,目标对象为药品,目标对象名称为药品名称,待识别文本为:“口腔炎症,建议服用维生素B2,每天吃三次,每次吃两片,同时服用红霉素,每天吃两次,每次吃一片”,服务器得到的候选全称的集合中包括:维生素A、维生素B1、维生素B2、维生素C、维生素D和红霉素,服务器依次遍历维生素A、维生素B1、维生素B2、维生素C、维生素D和红霉素,在待识别文本中查找待识别文本中包含的候选全称,待识别文本中包含的候选全称为维生素B2和红霉素,服务器将“维生素B2”和“红霉素”作为从待识别文本识别出的药品名称。
在一个例子中,目标对象名称为“美丽生态”,待识别文本为:“不知道美丽生态会不会像今天的天气一样美丽”,目标对象名称的中文内容的集合包括“美丽生态”,服务器确定候选全称为“美丽生态”,服务器查找待识别文本中是否包含“美丽生态”,确定待识别文本中包含“美丽生态”,服务器将“美丽生态”作为从待识别文本识别出的目标对象名称,相较于通过分词进行文本识别的方案,本实施例不会将“美丽生态”分成“美丽”和“生态”再去进行文本识别,可以避免因分词而导致文本识别失败的情况。
本实施例,获取包含目标对象名称的待识别文本,遍历预设的目标对象名称的中文内容的集合,将待识别文本中包含的目标对象名称的中文内容作为待识别文本的关键词,并得到待识别文本的关键词的集合,再根据预设的目标对象名称的全称的集合和关键词的集合,确定各关键词对应的候选全称,并得到候选全称的集合,最后根据候选全称的集合,确定从待识别文本识别出的目标对象名称。考虑到用户的用语习惯,需要进行文本识别的待识别文本经常是中文内容与非中文内容混合的待识别文本,目标对象名称的全称也可以是中文内容与非中文内容混合的词,本申请的实施例,先在待识别文本中确定只包含中文内容的关键词,弱化非中文内容对文本识别的影响,再根据关键词确定候选全称,候选全称中是可以包含非中文内容的,从而得到可包含非中文内容的候选全称。本申请确定关键词的过程采用完全匹配,确保中文内容符合用户意图,以提升文本识别的准确性,整个识别处理过程虽然弱化了非中文内容的影响,但最终得到的候选全称可以包含非中文内容,从而提升文本识别的容错率和成功率;同时,本申请的遍历过程无需对待识别文本的每个分词进行遍历,可以减少遍历次数,有效提升文本识别的速度,从而提升用户的使用体验,另外,相较于基于预训练模型进行文本识别的技术而言,本申请的实施例无需使用预训练模型,省去了模型训练的成本,从而可以在一定程度上降低文本识别的成本。
在一个实施例中,关键词的集合中的各关键词互不相同,服务器在根据预设的目标对象名称的全称的集合和关键词的集合,确定各关键词对应的候选全称,并得到候选全称的集合时,可以遍历预设的目标对象名称的全称的集合,将目标对象名称的全称的集合中包含关键词的全称,作为该关键词对应的候选全称,并得到候选全称的集合。
在一个例子中,目标对象为股票,目标对象名称为股票名称,目标对象名称的全称即股票名称的全称,服务器得到的关键词的集合中包括:甲子乙丑、丙辰、丁亥、戊寅己卯、庚申和辛未共6个关键词,预设的股票名称的全称的集合中包括:甲子乙丑、丙辰A、丙辰B、丙辰C、XY丁亥、戊寅己卯、ST庚申、AT庚申C、庚申A、辛未A、辛未D和癸酉FC等20种股票名称的全称,服务器依次遍历股票名称的全称的集合中的20种股票名称的全称,将全称的集合中包含关键词的全称,作为关键词对应的候选全称,服务器得到的候选全称的集合中包括:甲子乙丑、丙辰A、丙辰B、丙辰C、XY丁亥、戊寅己卯、ST庚申、AT庚申C、庚申A、辛未A和辛未D。
在上面的例子中,若关键词的集合中有6个关键词,目标对象名称的全称的集合中有20个目标对象名称的全称,服务器若采用遍历关键词的集合中每一个关键词,将每一个关键词与目标对象名称的全称的集合中的各目标对象名称的全称进行一一比对的方式,即正向遍历的方式,由于目标对象名称的全称集合中可能存在多个中文内容相同的目标对象名称,例如:丙辰A和丙辰B,即一个关键词可以匹配多个目标对象名称,服务器在采用正向遍历进行处理时,在得到一个和关键词匹配的目标对象名称后无法判断后续目标对象名称和关键词是否匹配,所以必须将关键词与目标对象名称的全称的集合中的各目标对象名称的全称都比对一遍,因此需要比较20×6=120次。在本实施例中,服务器采用遍历目标对象名称的全称集合中的每一个目标对象名称,将每一个目标对象名称与关键词的集合中的关键词进行比对的方式,即逆向遍历,由于关键词的集合中每一个关键词都是唯一的,逆向遍历时,正在遍历的目标对象名称的全称只要匹配到关键词,就可以结束匹配,服务器继续遍历下一个目标对象名称的全称,比较次数只需要1+2+2+2+3+4+5+5+5+6+6+9×6=95次,比较次数最多不超过120次,在关键词的集合数据量很大的情况下,本实施例能显著降低计算量,减少比较次数,从而提高文本识别的速度。
本实施例采用逆向遍历的方式进行处理,相较于正向遍历的方式而言,只要在关键词的集合中找到目标对象名称的全称包含的关键词,即可进行下一个目标对象名称的全称的匹配,可以无需将目标对象名称的全称与关键词的集合中的每一个关键词都匹配一遍,在关键词的集合数据量很大的情况下,能显著降低计算量,减少比较次数,从而提高文本识别的速度。
在一个实施例中,服务器根据候选全称的集合,确定从待识别文本识别出的目标对象名称,可以由如图2所示的各步骤实现,具体包括:
步骤201,遍历候选全称的集合,根据候选全称,确定待校名称。
在具体实现中,服务器在根据候选全称的集合,确定从待识别文本识别出的目标对象名称时,可以遍历候选全称的集合,根据候选全称,确定待校名称,待校名称即用于与待识别文本进行比对的名称,根据候选全称确定待校名称再进行比对,可以使得文本识别的过程更加灵活,满足用户的各种需求。
步骤202,根据待校名称,从待识别文本中确定待校文本。
在具体实现中,服务器确定出待校名称后,可以根据待校名称,从待识别文本中确定待校文本,待识别文本中的待校文本即可能与待校名称匹配成功的词。
步骤203,将待校名称和待校文本进行对比,得出候选全称的保留结果。
在具体实现中,服务器在从待识别文本中确定待校文本后,可以将待校名称和待校文本进行对比,得出候选全称的保留结果,直接将待校名称和待校文本进行对比,得出候选全称的保留结果,无需将待校名称与待识别文本的每一个字进行比对,显著较少比对量,可以进一步提升文本识别的速度。
步骤204,将保留的候选全称作为从待识别文本识别出的目标对象名称。
在一个实施例中,服务器可以通过如图3所示的各步骤,根据待校名称,从待识别文本中确定待校文本,具体包括:
步骤301,确定待校名称对应的关键词的首个关键字在待识别文本中的位置A。
步骤302,确定待校名称的长度M,并确定待校名称的首个中文字符在待校名称中的位置N。
步骤303,将待识别文本中第A-N+1个字符至第A+M-N个字符作为待校文本。
本实施例,确定待校名称对应的关键词的首个关键字在待识别文本中的位置A,确定待校名称的长度M,并确定待校名称的首个中文字符在待校名称中的位置N,再将待识别文本中第A-N+1个字符至第A+M-N个字符作为待校文本,可以保证关键词在待校名称中的位置与关键词在待校文本中的位置一致,便于进行比对,进一步提升文本识别的速度和准确性。
在一个例子中,待识别文本为“吃点青霉素G,每日吃三次,每次吃两片,再补充些维生素,禁烟酒,注意保护肝,多运动”,待识别文本的关键词包括“青霉素、维生素、酒和肝”,服务器确定的候选全称包括“青霉素G”、“青霉素V”、“维生素A”、“维生素B1”、“维生素B2”、“跌打酒”、“鱼肝油”和“护肝片”,服务器将“维生素A”作为待校名称,“维生素A”对应的关键词为“维生素”,“维生素”的首个关键字在待识别文本中的位置为第21个字符,待校名称“维生素A”的长度为4个字符,“维生素A”中的首个中文字符在待校名称中的位置为第1个字符,服务器将待识别文本中第21个字符至24个字符作为待校文本,待校文本为“维生素禁”,关键词“维生素”在待校名称“维生素A”和待校文本“维生素禁”中的位置是一样的。
在一个实施例中,服务器可以直接将候选全称作为待校名称,服务器将待校名称和待校文本进行对比,得出候选全称的保留结果,可以由如图4所示的各步骤实现,具体包括:
步骤401,判断待校名称是否与至少一个待校文本完全一致,如果是,执行步骤402,否则,执行步骤403。
在一个例子中,待识别文本为:“哥,听说今天A丙辰A股、丙辰B股涨了0.1,我还听说甲子乙丑和丁亥也不错,就是不知道戊寅己卯今天的走势有没有能一转颓势,hhh庚申C也想看看庚申D以及辛未B”,服务器得到的关键词的集合中包含:甲子乙丑、丙辰、丁亥、戊寅己卯、庚申和辛未,服务器在得到关键词的集合后,获取各关键词的首个关键字在待识别文本中的位置可以如表1所示:
表1:各关键词的首个关键字在待识别文本中的位置记录表
关键词 首个关键字在待识别文本中的位置A
甲子乙丑 27
丙辰 8、13
丁亥 32
戊寅己卯 43
庚申 64、71
辛未 76
服务器得到的候选全称的集合中包括:甲子乙丑、丙辰A、丙辰B、丙辰C、XY丁亥、戊寅己卯、ST庚申、AT庚申C、庚申A、辛未A和辛未D,服务器直接将候选全称作为待校名称,服务器获取的各待校名称的长度和各待校名称的首个中文字符在待校名称中的位置可以如表2所示:
表2:各待校名称的长度和各待校名称的首个中文字符在待校名称中的位置记录表
服务器在获取各待校名称的长度M和各待校名称的首个中文字符在待校名称中的位置N后,将待识别文本中第A-N+1个字符至第A+M-N个字符作为待校文本,各待校名称对应的待校文本和待校名称与待校文本的匹配情况如表3所示:
表3:各待校名称对应的待校文本和待校名称与待校文本的匹配情况统计表
步骤402,将待校名称对应的候选全称作为保留的候选全称。
在一个例子中,如表3所示,待校名称中“甲子乙丑”、“丙辰A”、“丙辰B”和“戊寅己卯”与至少一个待校文本完全一致,服务器将“甲子乙丑”、“丙辰A”、“丙辰B”和“戊寅己卯”作为保留的候选全称,即作为从待识别文本识别出的目标对象名称。
步骤403,将待校名称对应的候选全称作为不保留的候选全称。
在一个例子中,如表3所示,待校名称中“丙辰C”、“XY丁亥”、“ST庚申”、“AT庚申C”、“庚申A”、“辛未A”和“辛未D”与待校文本均不一致,服务器将“丙辰C”、“XY丁亥”、“ST庚申”、“AT庚申C”、“庚申A”、“辛未A”和“辛未D”作为不保留的候选全称。
本实施例,将候选全称作为待校名称,若待校名称和待文本完全一致,说明待识别文本中包含该候选全称,即中文内容和非中文内容均完全一致,服务器将该候选全称作为符合用户意图的候选全称,并将符合用户意图的候选全称进行输出,保证从待识别文本识别出的目标对象名称是待识别文本中包含的,可以有效保证文本识别的准确性。
在一个实施例中,关键词对应的候选全称为多个,服务器直接将候选全称作为待校名称,若服务器确定某一关键词对应的所有候选全称均为不保留的候选全称,则服务器可以将该关键词对应的所有候选全称都作为保留的候选全称。
在一个例子中,服务器确定各待校名称与待校文本的匹配情况可以如表3所示,其中,关键词“丁亥”、“庚申”和“辛未”对应的候选全称(即待校名称)均为不保留的候选全称,则服务器可以将“XY丁亥”、“ST庚申”、“AT庚申C”、“庚申A”、“辛未A”和“辛未D”都作为保留的候选全称,服务器从待识别文本“哥,听说今天A丙辰A股、丙辰B股涨了0.1,我还听说甲子乙丑和丁亥也不错,就是不知道戊寅己卯今天的走势有没有能一转颓势,hhh庚申C也想看看庚申D以及辛未B”中识别出的目标对象名称包括:甲子乙丑、丙辰A、丙辰B、戊寅己卯、XY丁亥、ST庚申、AT庚申C、庚申A、辛未A和辛未D。
本实施例,当某个关键词对应的候选全称都为不保留的候选全称时,服务器可以将该关键词对应的所有候选全称都作为保留的候选全称,从而能够在一定程度上改善因用户输入的待识别文本有误,或用户只输入了简称而导致文本识别失败的情况,可以提升文本识别的成功率和容错率,保证向用户输出识别结果,从而更好地满足用户的使用需求,进一步提升用户的使用体验。
在一个实施例中,服务器在根据候选全称,确定待校名称时,可以根据预设的拆分规则对候选全称进行拆分,将拆分后的候选全称作为待校名称,其中,拆分规则包括将包含多个非中文内容和多个中文内容的候选全称拆分成一个非中文内容和一个中文内容的组合。
在一个例子中,拆分规则为将包含多个非中文内容和多个中文内容的候选全称拆分成一个非中文内容和一个中文内容的组合,比如:待拆分的候选全称为“AT庚申C”,“AT庚申C”包含“AT”和“C”两个非中文内容和“庚申”这一个中文内容,服务器可以将“AT庚申C”拆分成“AT庚申”和“庚申C”,将“AT庚申”和“庚申C”作为待校名称。
本实施例,可以将候选全称按照预设的拆分规则进行拆分,将拆分后的候选全称作为待校名称去进行匹配,考虑到在非正式场合情况下,用户的习惯用语比较随意,即待识别文本可能有误,或者只包含一些简称,而目标名称的全称、服务器得到的候选全称可能比较长,包含多个中文内容和多个非中文内容,比如俱乐部名称的全称为“FC汉诺威96”,包含一个中文内容和两个非中文内容,将待校名称和待校文本进行比对时,中文内容和非中文内容均会影响比对,此时多个非中文内容的影响导致文本匹配的难度比较高,本实施例将候选全称按照预设的拆分规则进行拆分,比如将候选全称拆分成“FC汉诺威”和“汉诺威96”,拆分后的候选全称的长度缩短,且只包含一个中文内容和一个非中文内容,将拆分后的候选全称作为待校名称,将待校名称和待校文本进行比对时,只有一个中文内容和一个非中文内容影响比对,从而可以降低比对的标准和难度,从而提升文本识别的成功率和容错率,更好地满足用户的实际需求,提升用户的使用体验。
在一个实施例中,服务器根据预设的拆分规则对候选全称进行拆分,将拆分后的候选全称作为待校名称,服务器将待校名称和待校文本进行对比,得出候选全称的保留结果,可以由如图5所示的各步骤实现,具体包括:
步骤501,判断待校文本是否包含非中文内容,如果是,执行步骤503,否则,执行步骤502。
在一个例子中,待识别文本为:“哥,听说今天A丙辰A股、丙辰B股涨了0.1,我还听说甲子乙丑和丁亥也不错,就是不知道戊寅己卯今天的走势有没有能一转颓势,hhh庚申C也想看看庚申D以及辛未B”,服务器得到的关键词的集合中包含:甲子乙丑、丙辰、丁亥、戊寅己卯、庚申和辛未,服务器在得到关键词的集合后,获取各关键词的首个关键字在待识别文本中的位置可以如表1所示,服务器得到的候选全称包括:甲子乙丑、丙辰A、丙辰B、丙辰C、XY丁亥、戊寅己卯、ST庚申、AT庚申C、庚申A、辛未A和辛未D,服务器按照预设的拆分规则对候选全称进行拆分,将拆分后的候选全称作为待校名称,待校名称包括:甲子乙丑、丙辰A、丙辰B、丙辰C、XY丁亥、戊寅己卯、ST庚申、AT庚申、庚申C、庚申A、辛未A和辛未D,服务器获取的各待校名称的长度和各待校名称的首个中文字符在待校名称中的位置可以如表4所示:
表4:各待校名称的长度和各待校名称的首个中文字符在待校名称中的位置记录表
服务器在获取各待校名称的长度M和各待校名称的首个中文字符在待校名称中的位置N后,将待识别文本中第A-N+1个字符至第A+M-N个字符作为待校文本,各待校名称对应的待校文本和待校文本是否包含非中文内容检测结果如表5所示:
表5:各待校名称对应的待校文本和待校文本是否包含非中文内容检测结果统计表
步骤502,将待校名称对应的候选全称作为保留的候选全称。
在一个例子中,服务器确定的各待校名称对应的待校文本和待校文本是否包含非中文内容检测结果如表5所示,待校文本中的“甲子乙丑”、“丑和丁亥”、“戊寅己卯”和“看看庚申”不包含非中文内容,服务器直接将“甲子乙丑”、“XY丁亥”、“戊寅己卯”、“ST庚申”和“AT庚申C”,作为保留的候选全称。
步骤503,判断候选全称是否有对应的至少一个待校名称与待校文本完全一致,如果是,执行步骤504,否则,执行步骤505。
步骤504,将候选全称作为保留的候选全称。
在一个例子中,服务器确定的各待校名称对应的待校文本和待校文本是否包含非中文内容检测结果如表5所示,待校文本中的“丙辰A”、“丙辰B”、“hh庚申”、“庚申C”、“庚申D”和“辛未B”包含非中文内容,服务器可以确定“丙辰A”、“丙辰B”、“ST庚申”、“AT庚申C”、“庚申A”、“辛未A”和“辛未D”是否有对应的至少一个待校名称与待校文本完全一致,其中,“丙辰A”、“丙辰B”、“AT庚申C”有对应的至少一个待校名称与待校文本完全一致,服务器将“丙辰A”、“丙辰B”、“AT庚申C”作为保留的候选全称。
步骤505,将候选全称作为不保留的候选全称
在一个例子中,服务器确定的各待校名称对应的待校文本和待校文本是否包含非中文内容检测结果如表5所示,待校文本中的“丙辰A”、“丙辰B”、“hh庚申”、“庚申C”、“庚申D”和“辛未B”包含非中文内容,服务器可以确定“ST庚申”、“庚申A”、“辛未A”和“辛未D”没有对应的至少一个待校名称与待校文本完全一致,服务器将“ST庚申”、“庚申A”、“辛未A”和“辛未D”作为不保留的候选全称,服务器确定各候选全称的保留情况如表6所示:
表6:各候选全称的保留情况统计表
服务器从待识别文本识别出的目标对象的名称包括:甲子乙丑、丙辰A、丙辰B、XY丁亥、戊寅己卯、ST庚申和AT庚申C。
本实施例,待校文本包含关键词本身,当待校文本不包含非中文内容时,此时待校文本可能与待校名称完全一致,也可能只包含待校名称的中文内容(即关键词),但这两种情况都是符合用户意图的,比如待校名称为“利物浦”(候选全称为“利物浦”),待校文本为“利物浦”,“利物浦”符合用户意图,服务器将其作为保留的候选全称,再比如待校名称为“FC汉诺威”(候选全称为“FC汉诺威96”),待校文本为“对阵汉诺威”,待校文本包含待校名称的中文内容,服务器确定“FC汉诺威96”是符合用户意图的,服务器也将其作为保留的候选全称,即待校文本不包含非中文内容时,本实施例只关注待校名称的中文内容,弱化非中文内容的影响,可以进一步提升文本识别的容错率和成功率;当待校文本包含非中文内容时,本实施例认为用户的意图是需要加上非中文内容的影响的,即只有与待校文本完全一致的待校名称才是符合用户意图的,比如待校名称为“北京GA”(候选全称为“FC北京GA”),待校文本为“北京RH”,那么“北京RH”是符合用户意图的,“北京RH”对应的候选全称才是符合用户意图的候选全称,“FC北京GA”是不符合用户意图的候选全称,服务器将不符合用户意图的候选全称排除掉,可以更好地满足用户的实际需求。
在本实施例中,针对不同的待校文本进行不同的比对,由于待校文本来源于用户输入的待识别文本,在将待校文本和待校名称进行比对时,是否加上非中文内容的影响完全取决于待校文本,即用户输入的待识别文本,根据用户的输入情况确定比对方式,从而实现对候选名称的灵活筛选,提高最终文本识别结果的精度和准确度,得到更符合用户意图的目标对象名称。
在一个实施例中,关键词对应的候选全称为多个,根据预设的拆分规则对候选全称进行拆分,将拆分后的候选全称作为待校名称,若服务器确定某一关键词对应的所有候选全称均为不保留的候选全称,则服务器可以将该关键词对应的所有候选全称都作为保留的候选全称。
在一个例子中,服务器确定各候选全称的保留情况可以如表5所示,其中,关键词“辛未”对应的所有候选全称均为不保留的原候选全称,则服务器可以将“辛未A”和“辛未D”都作为从待识别文本识别出的目标对象名称,服务器从待识别文本“哥,听说今天A丙辰A股、丙辰B股涨了0.1,我还听说甲子乙丑和丁亥也不错,就是不知道戊寅己卯今天的走势有没有能一转颓势,hhh庚申C也想看看庚申D以及辛未B”中识别出的目标对象名称包括:甲子乙丑、丙辰A、丙辰B、戊寅己卯、XY丁亥、ST庚申、AT庚申C、辛未A和辛未D。
本实施例,当某个关键词对应的候选全称都为不保留的候选全称时,服务器可以将该关键词对应的所有候选全称都作为保留的候选全称,从而能够在一定程度上改善因用户输入的待识别文本有误,或用户只输入了简称而导致文本识别失败的情况,可以提升文本识别的成功率和容错率,保证向用户输出识别结果,从而更好地满足用户的使用需求,进一步提升用户的使用体验。
在一个实施例中,服务器在将待识别文本中包含的候选全称作为从待识别文本识别出的目标对象名称之后,还可以获取从待识别文本识别出的目标对象名称相关的信息,并向客户端展示这些相关的信息,本实施例在确定从待识别文本识别出的目标对象名称之后,可以向用户自动输出从待识别文本识别出的目标对象名称相关的信息,可以更好地满足用户的实际需求。
在一个例子中,服务器从待识别文本中识别出的目标对象名称包括:甲子乙丑、丙辰A和丙辰B,服务器可以获取“甲子乙丑”、“丙辰A”和“丙辰B”今日涨幅信息、使之信息和交易信息的等,并向客户端展示这些信息。
在一个实施例中,目标对象名称的全称的集合和目标对象名称的中文内容的集合,可以通过如图6所示的各步骤获取,具体包括:
步骤601,获取若干目标对象名称的全称,生成目标对象名称的全称的集合。
在一个例子中,目标对象为股票,目标对象名称为股票名称,服务器可以从证券平台中获取若干股票名称的全称,生成股票名称的全称的集合。
步骤602,获取目标对象名称的全称的集合中的各目标对象名称的全称的中文部分。
步骤603,对获得的各目标对象名称的全称的中文部分进行去重,生成目标对象名称的中文内容的集合。
在具体实现中,目标对象名称的中文内容的集合是基于目标对象名称的全称的集合提取、去重得到的,可以清除掉重复的内容,在文本识别过程中避免无效遍历,进一步提升文本识别的速度,同时,进行去重操作可以保证基于目标对象名称的中文内容的集合获得的关键词的集合中,各关键词也是互不相同的,从而支持服务器采用遍历目标对象名称的全称集合中的每一个目标对象名称,将每一个目标对象名称与关键词的集合中的关键词进行比对的方式,即采用逆向遍历的方式来得到候选全称的集合。
本申请的另一个实施例提供了一种文本识别方法,下面对本实施例的文本识别方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须,本实施例的文本识别方法的具体流程可以如图7所示,包括:
步骤701,获取包含目标对象名称的待识别文本。
步骤702,遍历预设的目标对象名称的中文内容的集合,将待识别文本中包含的目标对象名称的中文内容作为待识别文本的关键词,并得到待识别文本的关键词的集合。
步骤703,遍历预设的目标对象名称的全称的集合,将全称的集合中包含关键词的全称,作为关键词对应的候选全称,并得到候选全称的集合。
步骤704,遍历候选全称的集合,根据候选全称,从待识别文本中确定第一待校文本。
步骤705,判断候选全称与第一待校文本是否完全一致,如果是,执行步骤713,否则,执行步骤706。
步骤706,将候选全称作为不保留的候选全称。
步骤707,若关键词对应的所有候选全称均为不保留的候选全称,则根据预设的拆分规则对候选全称进行拆分,得到拆分后的候选全称的集合。
步骤708,遍历拆分后的候选全称的集合,根据拆分后的候选全称的,从待识别文本中确定第二待校文本。
步骤709,判断第二待校文本是否包含非中文内容,如果是,执行步骤710,否则,执行步骤713。
步骤710,判断候选全称是否有至少一个拆分后的待校名称与第二待校文本完全一致,如果是,执行步骤713,否则,执行步骤711。
步骤711,将候选全称作为不保留的候选全称。
步骤712,若关键词对应的所有候选全称均为不保留的候选全称,则将关键词对应的所有候选全称都作为保留的候选全称。
步骤713,将候选全称作为保留的候选全称。
步骤714,将保留的候选全称作为从待识别文本识别出的目标对象名称。
本实施例,服务器先根据目标对象名称的中文内容从待识别文本中得到关键词集合,根据关键词逆向遍历得到包含关键词的目标对象名称,在此处理过程中只利用了中文内容进行文本识别,弱化了非中文内容对文本识别的影响,从而得到中文内容符合用户意图的且可以包含非中文内容的候选全称,即全部有可能符合用户意图的候选全称。
服务器先直接将候选全称作为待校名称,根据待校名称在待识别文本中确定第一待校文本,进行第一次匹配,第一次匹配能够将和待识别文本中对应的待校文本完全一致的候选全称识别,即符合用户意图的候选全称,将关键词对应的各候选全称中符合用户意图的作为保留的候选全称,该关键词对应的其余候选全称作为不保留的候选全称去除,从而实现对候选全称的进一步筛选,以提高最终文本识别结果的精度和准确度,得到更符合用户意图的目标对象名称。
若某个关键词对应的所有候选全称在第一次匹配后均为不保留的候选全称,服务器将该关键词对应的所有候选全称按照预设的拆分规则进行拆分,将拆分后的候选全称作为待校名称,确定第二待校文本,进行第二次匹配,第二次匹配能够将和包含非中文内容的第二待校文本不一致的候选全称识别,即不符合用户意图的候选全称,将关键词对应的各候选全称中不符合用户意图的作为不保留的候选全称去除,该关键词对应的其余候选全称作为保留的候选全称,从而实现对候选全称的进一步筛选,以提高最终文本识别结果的精度和准确度,得到更符合用户意图的目标对象名称。
最后若仍有关键词对应的所有候选全称均为不保留的候选全称,服务器可以将该关键词对应的所有候选全称均保留,即本实施例将全部有可能符合用户意图的候选全称都作为从待识别文本识别出的所述目标对象名称,可以进一步提升文本识别的成功率和容错率。
本实施例从待识别文本中先得到全部有可能符合用户意图的候选全称,再进行第一次匹配将符合用户意图的候选全称保留,关键词对应的其余候选全称去除;再对第一次匹配后的关键词对应的候选全称全部为不保留的情况进行第二次匹配,将不符合用户意图的候选全称去除,关键词对应的其余候选全称保留。本实施例通过多次的匹配,对候选全称进行多次筛选过滤,从而最大程度地符合用户输入的待识别文本的意图,更好地满足用户的实际需求。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请的另一个实施例涉及一种电子设备,如图8所示,包括:至少一个处理器801;以及,与所述至少一个处理器801通信连接的存储器802;其中,所述存储器802存储有可被所述至少一个处理器801执行的指令,所述指令被所述至少一个处理器801执行,以使所述至少一个处理器801能够执行上述各实施例中的文本识别方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请的另一个实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (10)

1.一种文本识别方法,其特征在于,包括:
获取包含目标对象名称的待识别文本;其中,所述待识别文本为包含至少一个所述目标对象名称的中文内容的一段话;
遍历预设的所述目标对象名称的中文内容的集合,将所述待识别文本中包含的所述中文内容作为所述待识别文本的关键词,并得到所述待识别文本的关键词的集合;
根据预设的所述目标对象名称的全称的集合和所述关键词的集合,确定各关键词对应的候选全称,并得到所述候选全称的集合;其中,所述候选全称中至少包含所述中文内容;
根据所述候选全称的集合,确定从所述待识别文本识别出的所述目标对象名称;
所述根据所述候选全称的集合,确定从所述待识别文本识别出的所述目标对象名称,包括:
遍历所述候选全称的集合,根据所述候选全称,确定待校名称;
根据所述待校名称,从所述待识别文本中确定待校文本;
将所述待校名称和所述待校文本进行对比,得出所述候选全称的保留结果;
将保留的候选全称作为从所述待识别文本识别出的所述目标对象名称;
所述将所述待校名称和所述待校文本进行对比,得出所述候选全称的保留结果,包括:
判断所述待校文本是否包含非中文内容;
若所述待校文本不包含非中文内容,则将所述待校名称对应的候选全称作为保留的候选全称;
若所述待校文本包含非中文内容,且所述候选全称对应的至少一个待校名称与所述待校文本完全一致,则将所述候选全称作为保留的候选全称。
2.根据权利要求1所述的文本识别方法,其特征在于,所述关键词的集合中的各关键词互不相同;
所述根据预设的所述目标对象名称的全称的集合和所述关键词的集合,确定各关键词对应的候选全称,并得到所述候选全称的集合,包括:
遍历预设的所述目标对象名称的全称的集合,将所述全称的集合中包含所述关键词的全称,作为所述关键词对应的候选全称,并得到所述候选全称的集合。
3.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述待校名称,从所述待识别文本中确定待校文本,包括:
确定所述待校名称对应的关键词的首个关键字在所述待识别文本中的位置A;
确定所述待校名称的长度M,并确定所述待校名称的首个中文字符在所述待校名称中的位置N;
将所述待识别文本中第A-N+1个字符至第A+M-N个字符作为待校文本。
4.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述候选全称,确定待校名称,包括:将所述候选全称作为待校名称;
所述将所述待校名称和所述待校文本进行对比,得出所述候选全称的保留结果,包括:
判断所述待校名称是否与至少一个所述待校文本完全一致;
若所述待校名称与至少一个所述待校文本完全一致,则将所述待校名称对应的候选全称作为保留的候选全称。
5.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述候选全称,确定待校名称,包括:
根据预设的拆分规则对所述候选全称进行拆分,将拆分后的候选全称作为待校名称;其中,所述拆分规则包括将包含多个非中文内容和多个中文内容的候选全称拆分成一个非中文内容和一个中文内容的组合。
6.根据权利要求1或4所述的文本识别方法,其特征在于,所述将所述待校名称和所述待校文本进行对比,得出所述候选全称的保留结果,还包括:
若所述关键词对应的所有候选全称均为不保留的候选全称,则将所述关键词对应的所有候选全称都作为保留的候选全称。
7.根据权利要求1中所述的文本识别方法,其特征在于,所述预设的所述目标对象名称的全称的集合和所述预设的所述目标对象名称的中文内容的集合通过以下步骤获取:
获取若干目标对象名称的全称,生成目标对象名称的全称的集合;
获取所述目标对象名称的全称的集合中的各目标对象名称的全称的中文部分;
对获得的所述各目标对象名称的全称的中文部分进行去重,生成所述目标对象名称的中文内容的集合。
8.根据权利要求1所述的文本识别方法,其特征在于,所述获取包含目标对象名称的待识别文本,包括:
获取自然语言信息;其中,所述自然语言信息中包含至少一个目标对象名称,所述自然语言信息包括文本形式的自然语言信息和语音形式的自然语言信息;
根据所述自然语言信息,获取包含目标对象名称的待识别文本。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一所述的文本识别方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的文本识别方法。
CN202110859729.4A 2021-07-28 2021-07-28 文本识别方法、电子设备和计算机可读存储介质 Active CN113688628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110859729.4A CN113688628B (zh) 2021-07-28 2021-07-28 文本识别方法、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110859729.4A CN113688628B (zh) 2021-07-28 2021-07-28 文本识别方法、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113688628A CN113688628A (zh) 2021-11-23
CN113688628B true CN113688628B (zh) 2023-09-22

Family

ID=78578160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110859729.4A Active CN113688628B (zh) 2021-07-28 2021-07-28 文本识别方法、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113688628B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080032813A (ko) * 2006-10-11 2008-04-16 에스케이 텔레콤주식회사 음성 인식 서버를 이용한 모바일 전자상거래 시스템 및방법
CN101661463A (zh) * 2009-09-18 2010-03-03 杨盛 文字输入过程中的自动校对方法
CN106933799A (zh) * 2015-12-31 2017-07-07 北京四维图新科技股份有限公司 一种兴趣点poi名称的中文分词方法及装置
CN106959958A (zh) * 2016-01-11 2017-07-18 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
CN107357916A (zh) * 2017-07-19 2017-11-17 北京金堤科技有限公司 数据处理方法及系统
CA3036998A1 (en) * 2016-09-19 2018-03-22 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
CN108228657A (zh) * 2016-12-22 2018-06-29 沈阳美行科技有限公司 一种关键字检索的实现方法及装置
CN109033132A (zh) * 2018-06-05 2018-12-18 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN112015865A (zh) * 2020-08-26 2020-12-01 京北方信息技术股份有限公司 基于分词的全称匹配搜索方法、装置、设备及存储介质
CN112818091A (zh) * 2019-11-15 2021-05-18 北京京东尚科信息技术有限公司 基于关键词提取的对象查询方法、装置、介质与设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157223B2 (en) * 2016-03-15 2018-12-18 Accenture Global Solutions Limited Identifying trends associated with topics from natural language text

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080032813A (ko) * 2006-10-11 2008-04-16 에스케이 텔레콤주식회사 음성 인식 서버를 이용한 모바일 전자상거래 시스템 및방법
CN101661463A (zh) * 2009-09-18 2010-03-03 杨盛 文字输入过程中的自动校对方法
CN106933799A (zh) * 2015-12-31 2017-07-07 北京四维图新科技股份有限公司 一种兴趣点poi名称的中文分词方法及装置
CN106959958A (zh) * 2016-01-11 2017-07-18 阿里巴巴集团控股有限公司 地图兴趣点简称获取方法和装置
CA3036998A1 (en) * 2016-09-19 2018-03-22 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
CN108228657A (zh) * 2016-12-22 2018-06-29 沈阳美行科技有限公司 一种关键字检索的实现方法及装置
CN107357916A (zh) * 2017-07-19 2017-11-17 北京金堤科技有限公司 数据处理方法及系统
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN109033132A (zh) * 2018-06-05 2018-12-18 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN112818091A (zh) * 2019-11-15 2021-05-18 北京京东尚科信息技术有限公司 基于关键词提取的对象查询方法、装置、介质与设备
CN112015865A (zh) * 2020-08-26 2020-12-01 京北方信息技术股份有限公司 基于分词的全称匹配搜索方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Implicit feature identification in Chinese reviews using explicit topic mining model;Xu Hua 等;《Knowledge-Based Systems》;第76卷;166-175 *
Interpretability analysis for named entity recognition to understand system predictions and how they can improve;Agarwal Oshin 等;《Computational Linguistics》;第47卷(第1期);117-140 *
基于VGI标签的语义扩展空间信息检索技术研究——以OSM数据为例;夏辉;《中国博士学位论文全文数据库基础科学辑》(第06期);A008-8 *
基于领域本体的检索系统研究与实现;郝发婷;《中国优秀硕士学位论文全文数据库信息科技辑》(第02期);I138-2771 *

Also Published As

Publication number Publication date
CN113688628A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
Mathew et al. Docvqa: A dataset for vqa on document images
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107577663B (zh) 一种关键短语抽取方法和装置
CN110909122B (zh) 一种信息处理方法及相关设备
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US20220318509A1 (en) Entity recognition method and device, dictionary creating method, device and medium
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
Ji et al. Data selection in semi-supervised learning for name tagging
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
Kim et al. Figure text extraction in biomedical literature
CN112287664B (zh) 文本指标数据解析方法、系统及相应设备和存储介质
Hachey et al. Datasets for generic relation extraction
CN111506595B (zh) 一种数据查询方法、系统及相关设备
McConnaughey et al. The labeled segmentation of printed books
CN112231537A (zh) 基于深度学习和网络爬虫的智能阅读系统
CN110134766B (zh) 一种面向中医古籍文献的分词方法和装置
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN111199151A (zh) 数据处理方法、及数据处理装置
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
CN111444712A (zh) 一种关键词提取方法、终端、计算机可读存储介质
CN113688628B (zh) 文本识别方法、电子设备和计算机可读存储介质
Klein et al. Bootstrapping a historical commodities lexicon with SKOS and DBpedia
Suriyachay et al. Thai named entity tagged corpus annotation scheme and self verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant