CN116050402A - 文本地址识别方法、电子设备及存储介质 - Google Patents

文本地址识别方法、电子设备及存储介质 Download PDF

Info

Publication number
CN116050402A
CN116050402A CN202210567476.8A CN202210567476A CN116050402A CN 116050402 A CN116050402 A CN 116050402A CN 202210567476 A CN202210567476 A CN 202210567476A CN 116050402 A CN116050402 A CN 116050402A
Authority
CN
China
Prior art keywords
text
address
word
target
diffusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210567476.8A
Other languages
English (en)
Other versions
CN116050402B (zh
Inventor
刘智奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202210567476.8A priority Critical patent/CN116050402B/zh
Publication of CN116050402A publication Critical patent/CN116050402A/zh
Application granted granted Critical
Publication of CN116050402B publication Critical patent/CN116050402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供了一种文本地址识别方法、电子设备及存储介质,涉及人工智能技术领域。所述方法应用于电子设备,所述方法包括:确定地址识别对应的目标文本;根据所述目标文本的文本语种对应的地址词典,在所述目标文本中确定特征词;根据所述特征词和所述目标文本的文本语种对应的地址书序规则,在所述目标文本中确定目标子序列;按照预设的特征提取规则,确定所述目标子序列对应的文本特征;将所述文本特征输入所述目标文本的文本语种对应的地址识别模型中,得到所述目标子序列对应的地址概率。本申请实施例可以提高了地址识别的准确率。

Description

文本地址识别方法、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本地址识别方法、电子设备及存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)和大数据的不断发展,文本识别成为其中很重要的技术之一。在将文本识别技术应用到地址角色识别的场景时,需要对待识别文本中的文本地址进行识别,得到地址数据。但是,对待识别文本中较长的地址文本进行识别时,容易出现地址截断的问题,例如,将一个完整的地址切分为多个部分,导致地址识别的效果较差而影响到识别地址的准确性。
发明内容
鉴于以上内容,有必要提供一种文本地址识别方法、电子设备及存储介质,以提升文本地址识别的准确率。
第一方面,本申请实施例提供一种文本地址识别方法,应用于电子设备,所述方法包括:确定地址识别对应的目标文本;根据所述目标文本的文本语种对应的地址词典,在所述目标文本中确定特征词;根据所述特征词和所述目标文本的文本语种对应的地址书序规则,在所述目标文本中确定目标子序列;按照预设的特征提取规则,确定所述目标子序列对应的文本特征;将所述文本特征输入所述目标文本的文本语种对应的地址识别模型中,得到所述目标子序列对应的地址概率。上述技术方案,通过预先设置文本语种对应的地址词典可以更准确地在待进行地址识别的目标文本中确定特征词,确定特征词后,根据文本语种对应的地址书写规则可以更准确地获取可能为地址的目标子序列,可以尽量避免出现对待识别文本中较长的地址文本进行识别时出现地址截断的问题,从而提高了地址识别的准确率。
在一种实现方式中,所述根据所述目标文本的文本语种对应的地址词典,在所述目标文本中确定特征词包括:若所述目标文本中一单词与所述目标文本的文本语种对应的地址词典中记载的一个词相同,将所述单词确定为特征词;或者若所述目标文本中一单词与所述目标文本的文本语种对应的地址词典中记录的一个地址表达规则相匹配,将所述单词确定为特征词。上述技术方案,可以提高确定特征词的准确率。
在一种实现方式中,所述方法还包括:若所述目标文本中存在一阿拉伯数字,将所述阿拉伯数字确定为特征词。上述技术方案,通过将很可能为地址的阿拉伯数字确定为特征词,可以确定更多的特征词,从而减少了特征词的遗漏,提高特征词确定的准确率。
在一种实现方式中,在所述目标文本中确定特征词之后,所述方法还包括:使用预设的标注词或标注符号,对所述特征词进行标注。上述技术方案,通过使用标注词对特征词进行标注,可以方便后续确定特征词在目标文本中的位置,提高了确定特征词位置的效率。
在一种实现方式中,所述在所述目标文本中确定目标子序列包括:对确定的每个特征词进行两边扩散;确定每次扩散后得到的分词是否符合所述目标文本的文本语种对应的地址书写规则;根据判断结果确定目标子序列,所述两边扩散包括上文扩散和下文扩散。上述技术方案,通过对特征词进行两边扩散,可以确定大概率为地址的目标子序列。
在一种实现方式中,所述根据判断结果确定目标子序列包括:根据判断结果,确定是否停止两边扩散;若停止两边扩散,根据在所述目标文本中停止两边扩散的位置,确定目标子序列。上述技术方案,通过对每次扩散后得到的分词进行判断,准确地确定出停止扩散的位置,从而提高了确定目标子序列的准确率。
在一种实现方式中,所述确定每次扩散后得到的分词是否符合所述目标文本的文本语种对应的地址书写规则包括:若扩散得到的分词不为特征词,确定所述分词是否符合所述目标文本的文本语种对应的地址书写规则。上述技术方案,通过在扩散后得到的分词不是特征词的情况下,再对扩散后得到的分词进行进一步的判断,可以避免在分词是特征词的情况下进行多余判断带来的算力消耗与效率降低。
在一种实现方式中,对确定的每个特征词进行两边扩散之后,所述方法还包括:若一次扩散得到的分词不为特征词且所述分词不符合所述目标文本的文本语种对应的地址书写规则,停止扩散,所述扩散包括上文扩散或下文扩散。上述技术方案,通过在扩散后得到的分词不为特征词且不符合所述目标文本的文本语种对应的地址书写规则,停止扩散,可以准确地确定停止扩散的位置。
在一种实现方式中,所述若一次扩散得到的分词不为特征词且所述分词不符合所述目标文本的文本语种对应的地址书写规则,停止扩散包括:若一次扩散得到的分词不为特征词且所述分词不符合所述目标文本的文本语种对应的地址书写规则,确定当前不符合地址书写规则的次数是否超过容忍值;若超过所述容忍值,停止扩散。上述技术方案,通过预先设置不符合地址书写规则的容忍值,可以允许在容忍值内的书写错误,减少因用户的一次书写错误导致地址识别错误的情况发生,进一步提高了识别的准确率。
在一种实现方式中,所述文本特征包括地址上文特征、地址下文特征、地址起点特征和地址终点特征。上述技术方案,通过设置地址上文特征、地址下文特征、地址起点特征和地址终点特征,丰富了地址识别模型的模型输入,从而提高了地址识别模型的识别准确率。
在一种实现方式中,所述在所述目标文本中确定特征词包括:对所述目标文本进行分词,得到分词文本;在所述分词文本中确定特征词。上述技术方案,通过对目标文本进行分词,可以将连续的地址识别模型按照一定的规范重新组成语义独立的词序列,方便后续确定特征词。
在一种实现方式中,所述确定地址识别对应的目标文本包括:基于用户对所述电子设备上地址识别控件的操作,确定地址识别对应的目标文本。上述技术方案,通过用户的操作确定目标文本,可以提高确定目标文本的准确率。
第二方面,本申请实施例提供一种电子设备,该电子设备包括存储器和处理器;该存储器,用于存储程序指令;该处理器,用于读取存储器中存储的程序指令,以实现如上述的文本地址识别方法。
第三方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可读指令,该计算机可读指令被处理器执行时实现如上述的文本地址识别方法。
另外,第二方面和第三方面所带来的技术效果可参见上述方法部分各设计的方法相关的描述,此处不再赘述。
附图说明
图1为本申请实施例提供的一种文本地址识别方法的流程示意图。
图2为本申请实施例提供的一种特征词扩充的场景示意图。
图3为本申请实施例提供的一种特征词扩充的场景示意图。
图4为本申请实施例提供的一种地址识别模型的框架示意图。
图5为本申请实施例提供的一种俄语文本地址识别方法识别地址的场景示意图。
图6为本申请实施例提供的一种俄语文本分词的场景示意图。
图7为本申请实施例提供的一种俄语文本确定特征词的场景示意图。
图8为本申请实施例提供的一种英语文本地址识别方法识别地址的场景示意图。
图9为本申请实施例提供的一种英语文本分词的场景示意图。
图10为本申请实施例提供的一种英语文本确定特征词的场景示意图。
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,“示例性”、“或者”、“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性”、“或者”、“例如”等词旨在以具体方式呈现相关概念。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。应理解,本申请中除非另有说明,“/”表示或的意思。例如,A/B可以表示A或B。本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B三种情况。“至少一个”是指一个或者多个。“多个”是指两个或多于两个。例如,a、b或c中的至少一个,可以表示:a,b,c,a和b,a和c,b和c,a、b和c七种情况。应当理解的是,本文的流程图中所示步骤的顺序可以改变,某些也可以省略。
随着人工智能(Artificial Intelligence,AI)和大数据的不断发展,文本识别成为其中很重要的技术之一。在将文本识别技术应用到地址角色识别的场景时,需要对待识别文本中的文本地址进行识别,得到地址数据。但是,对待识别文本中较长的地址文本进行识别时,容易出现地址截断的问题,例如,将一个完整的地址切分为多个部分,导致地址识别的效果较差而影响到识别地址的准确性。
为了解决地址识别的效果较差的问题,本申请实施例提供一种文本地址识别方法,所述方法可以由任一电子设备执行,例如,可以是服务器或者用户终端,也可以是用户终端和服务器交互完成。可选地,用户终端可以将获取到的待识别文本(含有地址数据)发送给服务器,进而服务器获取待识别文本,并由服务器执行对待识别文本的地址识别,得到地址数据。可以理解的是,本申请中的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。用户终端可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、人工智能(artificialintelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备等电子设备。本申请实施例对该电子设备的具体形态不作特殊限制。
图1为本申请实施例提供的一种文本地址识别方法的流程示意图。如图1所示,该方法可以包括:
101,对目标文本进行分词,得到分词文本。
目标文本是指需要进行地址识别的文本。目标文本可以是基于用户的操作而确定的待进行地址识别的文本。
在本申请的一实施例中,可以根据目标文本对应的文本语种的分词规则,对目标文本进行分词,得到分词文本。不同的文本语种可以对应不同的分词规则。例如,英语对应的分词规则可以为根据文本中的空格进行分词,即在文本中的每个空格处进行分词操作,俄语和法语对应的分词规则可以和英语一致。
在实施例中,可以对目标文本进行语种识别,确定目标文本对应的文本语种。对目标文本进行语种识别的方法可以根据实际情况进行选择,在此不做任何限定。例如,可以使用朴素贝叶斯分类法或多类别逻辑回归法对目标文本进行语种识别。
在本申请的一些实施例中,可以对所述分词文本中的特殊字符进行删除处理,以使所述分词文本中不包含特殊字符,所述特殊字符包括标点或特殊符号。
102,根据目标文本的文本语种对应的地址词典,在所述分词文本中确定特征词。
地址词典中记录了与地址相关的内容。地址词典可以包括组成地址的地点词,还可以包括与地址相关的单词。组成地址的地点词可以包括指示具体地址的地点词,也可以包括泛指地址的地点词。
例如,英语对应的地址词典中可以包括VIC,VIC指示具体地址-维多利亚州,为指示具体地址的地点词。在英语表达中,使用“xxxx St”的句式表达澳大利亚地址的街道,英语对应的地址词典中可以包括St,St用于表示街道,为泛指地址的地点词。英语对应的地址词典中可以包括Avenue,Avenue用于表示街道,为泛指地址的地点词。
英语对应的地址词典中还可以包括与地址相关表示邮编的单词,如3052,3052是澳大利亚墨尔本市的帕克维尔区(Parkville)的邮编。
地址词典中还可以包括地址表达规则,如地址邮编对应的地址表达规则、街区/街道对应的地址表达规则等。地址表达规则用于确定可组成地址的词。英语对应的地址表达规则中可以包括地址邮编对应的地址表达规则。例如,地址邮编对应的地址表达规则可以为由四位阿拉伯数字表示地址邮编。在俄语对应的地址表达规则中,地址邮编对应的地址表达规则可以为由六位阿拉伯数字表示地址邮编。
在本申请的一些实施例中,可以预先设置文本语言对应的地址词典。预设的地址词典可以存储在电子设备的数据库中;或者也可以存储在可以与电子设备建立通信的服务器中,电子设备可以通过访问服务器,获取预设的地址词典。
特征词为目标文本(分词文本)中与地址相关的词。若分词文本中有一分词在所述目标文本的文本语种对应的地址词典中存在相应的记录,将所述分词确定为特征词,并对所述分词进行标注。例如,若分词文本中一分词与地址词典中记录的一个组成地址的地点词一致,确定所述分词在所述地址词典中存在相应的记录。又例如,若一分词与地址词典中记录的一个地址表达规则相匹配,确定所述分词在所述地址词典中存在相应的记录。若分词文本中一分词为“Avenue”且地址词典中记录的组成地址的地点词中包括“Avenue”,确定分词文本中的“Avenue”在所述地址词典中存在相应的记录。分词文本中一分词为“3052”,是一个由四位阿拉伯数字组成的分词,所述地址词典中记录的一个地址表达规则为“由四位阿拉伯数字表示地址邮编”,分词“3052”与地址表达规则“由四位阿拉伯数字表示地址邮编”相匹配,确定分词文本中“3052”在所述地址词典中存在相应的记录。
在本申请的一些实施例中,若分词文本中有一阿拉伯数字在所述目标文本的文本语种对应的地址词典不存在相应的记录,将所述阿拉伯数字确定为特征词。例如,若分词文本中有一阿拉伯数字(92)在所述目标文本的文本语种对应的地址词典未查找到相应的记录,将“92”确定为特征词。阿拉伯数字通常与地址有关,通过将地址词典不存在相应的记录的阿拉伯数字确定为特征词,可以确定更多的特征词,减少特征词的遗漏,提高特征词确定的准确率。
在本申请的一些实施例中,在所述分词文本中确定特征词之后,对确定的特征词进行标注。通过对特征词进行标注,方便后续在目标文本中确定特征词。
在本申请的一些实施例中,可以根据文本语种对应的地址词典,预先设置一些特征词对应的标注词,所述标注词用于对特征词进行标注。不同的特征词可以对应相同或者不同的标注词。例如,可以将组成地址的特征词的标注词设置为<ADD>,如将表示街道的特征词St的标注词设置为<ADD>,将特征词VIC的标注词设置为<ADD>,可以将表示地址邮编的特征词的标注词设置为<PST>,如将特征词3052的标注词设置为<PST>,可以将在所述目标文本的文本语种对应的地址词典中不存在相应记录的阿拉伯数字的标注词设置为<NUM>。
可以理解的是,对具有标注词的特征词可以使用标注词对该特征词进行标注,对不具有标注词的特征词可以使用预设的标注符号对该特征词进行标注。预设的标注符号可以根据用户的选择进行设置,在此不做任何限定。通过使用标注词对特征词进行标注,可以方便后续确定特征词在目标文本中的位置,提高了确定特征词位置的效率。
103,根据所述特征词和所述目标文本的文本语种对应的地址书写规则,在所述分词文本中,确定所述目标文本对应的目标子序列。
基于目标文本的文本语种,获取文本语种对应的地址书写规则。地址书写规则用于表示文本语种对应的地址书写格式。例如,地址书写规则可以包括首字母大写。
可以预先设置每个文本语种对应的地址书写规则。所述地址书写规则用于表示文本语种对应的正确书写格式。
在本申请的实施例中,目标子序列为所述目标文本中经预测大概率为地址的文本子序列。所述目标子序列包括至少一个特征词。所述目标子序列符合所述目标文本的文本语种对应的地址书写规则。一个目标文本中可以确定一个或多个目标子序列。
在本申请的一些实施例中,可以对分词文本中的每个特征词进行两边扩散,确定每次扩散后得到的分词是否符合所述目标文本的文本语种对应的地址书写规则,根据判断结果确定所述目标文本对应的目标子序列。
两边扩散包括上文扩散和下文扩散,上文扩散是指往特征词的上文方向进行扩散,下文扩散是指往特征词的下文方向进行扩散。在本申请实施例中,对上文扩散和下文扩散的执行顺序不进行限定,可以同时执行上文扩散和下文扩散,也可以根据预设优先顺序、不同时进行上文扩散和下文扩散。每次扩散的范围可以根据实际情况进行设置,在此不作任何限定。例如,扩散的范围可以每次向上文或下文扩散一个分词,也可以每次向上文或下文扩散两个分词。
当每个特征词进行上文扩散/下文扩散后的分词符合所述目标文本的文本语种对应的地址书写规则时,该特征词对应的上文扩散/下文扩散会继续执行。当每个特征词进行上文扩散/下文扩散后的分词不符合所述目标文本的文本语种对应的地址书写规则时,该特征词对应的上文扩散/下文扩散就会停止。
在本申请的一些实施例中,确定每次扩散后得到的分词是否符合所述目标文本的文本语种对应的地址书写规则包括:若每次扩散后得到的分词不为特征词,确定每次扩散后得到的分词是否符合所述目标文本的文本语种对应的地址书写规则。若一次扩散后得到的分词是特征词,则继续进行扩散。也就是说,在扩散后得到的分词是特征词的情况下,可以直接继续进行扩散,无需确定该次扩散后得到的分词是否符合所述目标文本的文本语种对应的地址书写规则。在扩散后得到的分词不是特征词的情况下,再对扩散后得到的分词进行进一步的判断,可以避免在分词是特征词的情况下进行多余判断带来的算力消耗与效率降低。
可以理解的是,上文扩散和下文扩散是相对独立的动作。也就是说,上文扩散的停止不会影响下文扩散的执行,下文扩散的停止也不会影响上文扩散的执行。例如,当一特征词进行上文扩散后得到的文本子序列不符合目标文本的文本语种对应的地址书写规则,导致上文扩散停止后,仍可以执行该特征词的下文扩散,直至该特征词进行下文扩散后得到的文本子序列不符合目标文本的文本语种对应的地址书写规则为止。
例如,如图2所示,分词文本由A、B、C、D、E、F、G、H、I、G、K、L、M、N等分词组成,其中C、D、E、F、G、H为特征词,如图2中(a)所示,对分词文本中每个特征词进行两边扩散(图中仅示意特征词C和H向两边扩散的场景,其余特征词向两边扩散的场景在图中未示出)。假设每次扩散的范围为一个分词,地址书写规则为首字母大写,以特征词C向两边扩散为例进行说明。特征词C进行第一次上文扩散时,得到分词B,确定分词B不是特征词且不符合目标文本的文本语种对应的地址书写规则后,停止向上文扩散,并在分词B和分词C之间进行隔断。如图2中(b)所示;特征词C进行第一次下文扩散时,得到分词D,确定分词D是特征词后,继续进行第二次下文扩散。第二次下文扩散得到分词E,确定分词E是特征词后,继续进行第三次下文扩散。第三次下文扩散和第四次下文扩散的过程与第二次下文扩散的过程相似,可以参见第二次下文扩散的描述,在此不再赘述。第五次下文扩散得到分词I,确定分词I不是特征词且不符合目标文本的文本语种对应的地址书写规则后,停止进行下文扩散,并在分词H和分词I之间进行隔断,如图2中(b)所示。将分词C、分词D、分词E、分词F、分词G和分词H组成的文本子序列(图2中(b)所示的文本子序列),确定为所述目标文本对应的目标子序列。
在本申请的一些实施例中,可以预先设置不符合地址书写规则的容忍值,容忍值可以根据实际情况进行设置,在此不做任何限定,如设置为1、2等。若确定扩散后的一分词不符合目标文本的文本语种对应的地址书写规则,确定当前不符合地址书写规则的次数是否超过容忍度。若不符合次数超过容忍度,停止扩散。若不符合次数未超过容忍度,继续扩散。当前不符合地址书写规则的次数是指当前扩散区间内的子序列中不符合地址书写规则的次数,也就是说,是上文扩散和下文扩散区间内的子序列中不符合地址书写规则的次数。例如,一分词文本由A、B、C、D、E、F、G、H、I、G等分词组成,不符合地址书写规则的容忍值为1。以特征词E进行扩散为例进行说明,若特征词E下文扩散的过程中,确定分词G不是特征词且不符合目标文本的文本语种对应的地址书写规则。若此时特征词E刚上文扩散完分词D准备向分词C进行扩散,确定分词D、分词E、分词F和分词G构成的子序列中不符合地址书写规则的次数。确定分词D、分词E、分词F和分词G构成的子序列中不符合地址书写规则的次数不符合地址书写规则的次数为1(分词G不符合地址书写规则),不超过不符合地址书写规则的容忍值,继续进行下文扩散。可以理解的是,若此时特征词E上文扩散的过程中确定分词C不是特征词且不符合目标文本的文本语种对应的地址书写规则后,确定当前不符合地址书写规则的次数(两次,分词G和分词C不符合地址书写规则)超过容忍度(1次),停止上文扩散,在分词C与分词D之间断开。
例如,如图3中(a)所示,分词文本由A、B、C、D、E、F、G、H、I、G等分词组成,其中C、D、E、F为特征词。假设每次扩散的范围为一个分词,地址书写规则为首字母大写,不符合地址书写规则的容忍值为1,以特征词E向下文扩散为例进行说明,特征词E进行第一次下文扩散时,得到分词F,确定分词F是特征词后,继续进行第二次下文扩散。第二次下文扩散得到分词G,确定分词G不是特征词且不符合目标文本的文本语种对应的地址书写规则,确定当前不符合地址书写规则的次数(1次)没有超过容忍值(1)后,继续进行第三次下文扩散。第三次下文扩散得到分词H,确定分词H不是特征词且不符合目标文本的文本语种对应的地址书写规则,确定当前不符合地址书写规则的次数(2次)超过容忍值(1)后,停止进行下文扩散,并在分词G和分词H之间进行隔断,如图3中(b)所示。通过预先设置不符合地址书写规则的容忍值,可以允许在容忍值内的书写错误,减少因用户的一次书写错误导致地址识别错误的情况发生,进一步提高了识别的准确率。
在本申请的一些实施方式中,预设不符合地址书写规则的容忍值之后,若确定扩散后的一分词不符合目标文本的文本语种对应的地址书写规则,得到第一目标子序列,并确定当前不符合地址书写规则的次数是否超过容忍度;若当前不符合地址书写规则的次数没有超过容忍度,继续扩散,并根据扩散结果得到第二目标子序列。例如,如图3中(a)所示,分词文本由A、B、C、D、E、F、G、H、I、G等分词组成,其中C、D、E、F为特征词。假设每次扩散的范围为一个分词,地址书写规则为首字母大写,不符合地址书写规则的容忍值为1,以特征词E扩散为例进行说明,特征词E进行第一次下文扩散时,得到分词F,确定分词F是特征词后,继续进行第二次下文扩散。第二次下文扩散得到分词G,确定分词G不是特征词但且不符合目标文本的文本语种对应的地址书写规则,在分词F和分词G处断开,得到第一目标子序列(若特征词E上文扩散时,在分词B和分词C之间断开,第一目标子序列为由分词C、分词D、分词E和分词F组成的子序列),并在确定当前不符合地址书写规则的次数(1次)没有超过容忍值(1)后,继续进行第三次下文扩散。第三次下文扩散得到分词H,确定分词H不是特征词但且不符合目标文本的文本语种对应的地址书写规则,确定当前不符合地址书写规则的次数(2次)超过容忍值(1)后,停止进行下文扩散,并在分词G和分词H之间进行隔断,如图3中(b)所示,得到第二目标子序列(第一目标子序列为由分词C、分词D、分词E、分词F和分词G组成的子序列)。
104,按照预设的文本特征提取规则,确定所述目标子序列对应的文本特征。
在本申请的实施例中,文本特征提取规则为在实体文本中进行文本提取的规则,用于确定目标子序列对应的文本序列(文本特征)。文本特征提取规则包括,但不限于:地址上文提取规则、地址下文提取规则、地址起点提取规则、地址终点提取规则。
地址上文提取规则用于提取目标子序列对应的地址上文特征,可以包括提取目标子序列上文中预设个数的分词作为地址上文特征,预设个数可以根据实际情况进行设置,在此不做任何限定,如提取目标子序列前三个分词作为地址上文特征、提取目标子序列前四个分词作为地址上文特征等。在本申请的一些实施例中,若目标子序列前的分词数量小于地址上文提取规则中需要提取的分词数量,根据目标子序列前的分词数量与地址上文提取规则中需要提取的分词数量之间的差值,对所述目标子序列对应的分词文本进行补词操作,在该分词文本中补充新的分词,使得在补词操作后的分词文本中可以提取到地址上文提取规则中需要提取的分词数。可以理解的是,补充的分词是无意义的,加入分词后不会改变特征对应的意义,不会影响后续的地址识别。补充的分词可以根据实际情况进行设置,在此不做任何限定。
例如,提取目标子序列前三个分词作为地址上文特征,目标子序列(分词C、分词D、分词E、分词F、分词G和分词H)前的分词为分词A和分词B,分词数量为2,小于地址上文提取规则中需要提取的分词数量(3),对目标子序列对应的分词文本进行补词操作,在分词A前补充一个分词(如分词0),基于地址上文提取规则,可以在补词操作后的分词文本中提取到地址上文特征(分词0、分词A和分词B)。分词0是无意义的,在此对分词0的具体形式不做任何限制,可以根据用户的选择进行设置。
地址下文提取规则用于提取目标子序列对应的地址下文特征,可以包括提取目标子序列下文中预设个数的分词作为地址下文特征,预设个数可以根据实际情况进行设置,在此不做任何限定,如提取目标子序列后三个分词作为地址下文特征、提取目标子序列后四个分词作为地址下文特征等。基于地址下文提取规则,进行特征提取,或进行补词操作的过程与地址上文提取规则相似,可以参见地址上文提取规则对应的相关描述,在此不再赘述。
地址起点提取规则用于提取目标子序列的地址起点特征,可以包括提取目标子序列从起点处预设个数的分词作为地址起点特征,预设个数可以根据实际情况进行设置,在此不做任何限定,如提取目标子序列内的前三个分词作为地址起点特征、提取目标子序列内的前四个分词作为地址起点特征等。基于地址起点提取规则,进行特征提取,或进行补词操作的过程与地址上文提取规则相似,可以参见地址上文提取规则对应的相关描述,在此不再赘述。
地址终点提取规则用于提取目标子序列的地址终点特征,可以包括提取目标子序列从终点处预设个数的分词作为地址终点特征,预设个数可以根据实际情况进行设置,在此不做任何限定,如提取目标子序列内的最后三个分词作为地址终点特征、提取目标子序列内的最后四个分词作为地址终点特征等。基于地址终点提取规则,进行特征提取,或进行补词操作的过程与地址上文提取规则相似,可以参见地址上文提取规则对应的相关描述,在此不再赘述。
可以理解的是,若目标文本对应了多个目标子序列,按照预设的文本特征提取规则,确定每个目标子序列对应的文本特征。
105,将所述目标子序列对应的文本特征输入所述目标文本的文本语种对应的地址识别模型中,得到所述目标子序列对应的地址概率。
目标子序列对应的文本特征可以包括目标子序列对应的地址上文特征、地址下文特征、地址起点特征和地址终点特征。在本申请的一些实施例中,目标子序列对应的文本特征还可以包括目标子序列对应的地址全文特征。地址全文特征包括目标子序列对应的全部分词。将目标子序列对应的地址全文特征输入地址识别模型,可以判断所述目标子序列是否符合地址书写的逻辑,进一步提高地址识别的准确率。
地址概率用于表示目标子序列为地址文本的概率,一目标子序列对应的地址概率越高,该目标子序列为地址文本的概率越大。
可以预先训练文本语种对应的地址识别模型。不同的文本语种可以对应不同的地址识别模型。如图4所示,地址识别模型可以包括输入层、隐藏层和输出层,输入层用于接收目标子序列对应的文本特征,隐藏层用于根据输入层接收到的目标子序列对应的文本特征,计算该目标子序列为地址的地址概率,输出层用于输出该目标子序列对应的地址概率。可以理解的是,地址识别模型中可以包括多层隐藏层。
可以根据实际需求选择训练集对地址识别模型进行模型训练。例如,需要地址识别模型对具有规则的文本进行地址识别时,可以将已有的命名实体识别(Named EntityRecognition,简称NER)数据集中地址词替换为随机生成的虚拟地址实体对地址识别模型进行训练。又例如,需要地址识别模型对完全无规则逻辑的文本进行地址识别时,可以随机生成前后文本对地址识别模型进行训练。以上逻辑为正样本的训练逻辑,正样本为正确标注的地址样本。
对于负样本也可按照以上逻辑自行调整。负样本为错误标注的地址样本。通过使用负样本对地址识别模型进行模型训练,可以有针对性的让模型避免一些容易出现的错误,提高了地址识别模型的识别精度。
根据所述目标子序列的地址概率,确定所述目标子序列是否为目标文本中的地址文本。若一目标子序列对应的地址概率大于或等于预设概率阈值,确定所述目标子序列为所述目标文本中的地址文本;否则,若一目标子序列对应的地址概率小于预设概率阈值,确定所述目标子序列并非为所述目标文本中的地址文本。
若一目标文本对应了多个目标子序列,根据每个目标子序列对应的地址概率,确定所述目标文本中的地址文本。可以将多个目标子序列对应的地址概率进行分值比对,将地址概率分值最高的目标子序列确定为所述目标文本中的地址文本。
图1所示的文本地址识别方法可以用于识别多种文本语言,如俄语、英语、法语等。
下面以图1所示的文本地址识别方法用于识别俄语为例进行说明。
图5为利用本申请实施例提供的俄语文本地址识别方法识别地址的场景示意图。如图5中(a)所示,用户的电子设备上接收到其他用户发送的短信“Наш адрес:107140,г.Москва,улица Верхняя Красносельская,дом16.”,当用户选中该短信的时候,可以在该短信对应的显示区域上显示该短信对应的功能控件,如图5中(b)所示,所述功能控件包括复制、转发、删除、地址识别、更多等功能控件。可以理解的是,图5中(b)所示的功能控件仅做举例说明,不构成任何限制,图5中(b)所示的功能控件可以用短信对应的语言进行表示,如用俄语进行表示。当用户点击功能控件“更多”时,可以显示其他的功能控件。当用户点击如图5中(b)所示的地址控件时,可以对该短信进行地址识别,将该短信确定为目标文本。下面将该短信称为目标文本来进行描述。
确定目标文本对应的文本语种为俄语。按照俄语的分词规则(例如,根据文本中的空格进行分词),对目标文本进行分词,得到分词文本。例如,如图6所示,图6中(a)为分词前的目标文本,分词时,可以对文本中的特殊字符进行删除处理,图6中(b)为分词后得到的分词文本,分词文本中包括多个分词。
根据俄语对应的地址词典,在分词文本中确定特征词。例如,如图7所示,图7中(a)为分词文本,图7中(b)中包含虚线框的分词为根据俄语对应的地址词典确定的特征词。确定特征词的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。可以理解的是,图7所示实施例中俄语对应的地址词典中包括了组成地址的地点词“г.”(为组成地址的地点词中泛指地址的地点词,表示城市)、“улица”(为组成地址的地点词中泛指地址的地点词,表示街道)、“дом”(为组成地址的地点词中泛指地址的地点词,表示楼号)。图7中(b)所示实施例中俄语对应的地址词典中还可以包括地址邮编对应的地址表达规则,如由六位阿拉伯数字表示地址邮编。根据上述俄语对应的地址词典记录的内容,可以将如图7中(a)所示的分词文本中的分词“г.”(在俄语对应的地址词典中记录)、分词“улица”(在俄语对应的地址词典中记录)、分词“дом”(在俄语对应的地址词典中记录)和分词“107140”(符合地址邮编对应的地址表达规则)确定为特征词。在图7所示实施例中,还可以包括若分词文本中有一阿拉伯数字在俄语对应的地址词典不存在相应的记录,将所述阿拉伯数字确定为特征词。例如,图7中(a)所示的分词文本中的分词“16”在俄语对应的地址词典不存在相应的记录,将分词“16”确定为特征词。
在确定特征词之后,根据预设的标注词对确定的特征词进行标注,根据预设的标注词对确定的特征词进行标注的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。可以理解的是,如图7所示实施例中对应的预设的特征词对应的标注词可以包括组成地址的特征词的标注词为<ADD>、表示地址邮编的特征词的标注词为<PST>和在所述目标文本的文本语种对应的地址词典中不存在相应记录的阿拉伯数字的标注词为<NUM>。根据上述特征词对应的标注词对特征词进行标注,如图7中(c)所示,将分词“107140”标注为“<PST>”,分词“г.”标注为“<ADD>”,分词“улица”标注为“<ADD>”,分词“дом”标注为“<ADD>”,分词“16”标注为“<NUM>”。
根据确定的特征词和俄语对应的地址书写规则(例如,首字母大小写),在分词文本中,确定目标文本对应的目标子序列。可以通过特征词和地址书写规则在分词文本中进行两边扩散,确定目标文本对应的目标子序列。两边扩散的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。若不符合地址书写规则的容忍值为1时,在该分词文本中可以确定了目标文本对应的两个目标子序列:“107140 г.Москва улица Верхняя Красносельскаядом16”、“Наш адрес 107140г.Москва улица Верхняя Красносельская дом 16”(该子序列中包括一个不为特征词且不符合地址书写规则的分词“адрес”)。
按照预设的文本特征提取规则,分别确定每个目标子序列对应的文本特征。文本特征可以包括地址上文特征、地址下文特征、地址起点特征和地址终点特征。确定文本特征的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。
例如,“107140 г.Москва улица Верхняя Красносельская дом 16”对应的地址上文特征为“分词0 Наш адрес”、地址下文特征为“分词0分词0分词0”、地址起点特征为“107140 г.Москва”和地址终点特征为“Красносельская дом 16”;在本申请的一些实施例中,“107140 г.Москва улица Верхняя Красносельская дом 16”还包括地址全文特征,地址全文特征为“107140 г.Москва улица Верхняя Красносельская дом 16”。其中,分词0用于补位,是无意义的。
又例如,“Наш адрес 107140 г.Москва улица Верхняя Красносельская дом 16”对应的地址上文特征为“分词0分词0分词0”、地址下文特征为“分词0分词0分词0”、地址起点特征为“Наш адрес 107140”和地址终点特征为“Красносельская дом16”;在本申请的一些实施例中,“Наш адрес 107140 г.Москва улица Верхняя Красносельская дом 16”还包括地址全文特征,地址全文特征为“Наш адрес 107140г.Москва улица Верхняя Красносельская дом 16”。其中,分词0用于补位,是无意义的。
分别将目标子序列“107140 г.Москва улица Верхняя Красносельскаядом 16”对应的文本特征和目标子序列“Наш адрес 107140 г.Москва улица Верхняя Красносельская дом 16”对应的文本特征输入俄语对应的地址识别模型中,得到每个目标子序列对应的地址概率。根据每个目标子序列对应的地址概率,在两个目标子序列中确定所述目标文本中的地址文本。可以将地址概率大的目标子序列确定为所述目标文本中的地址文本。例如,若目标子序列“107140 г.Москва улица Верхняя Красносельская дом 16”的地址概率为0.95,目标子序列“Наш адрес 107140 г.Москва улица Верхняя Красносельская дом 16”的地址概率为0.7,确定目标子序列“107140г.Москва улица Верхняя Красносельская дом 16”为所述目标文本中的地址文本。
上述文本地址识别方法用于识别俄语的实施例中的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。
下面以图1所示的文本地址识别方法用于识别英语为例进行说明。
图8为利用本申请实施例提供的英语文本地址识别方法识别地址的场景示意图。如图8中(a)所示,用户的电子设备上接收到其他用户发送的短信“My home address is 92The Avenue,Parkville VIC 3052,you are welcome to come tomorrow.”,当用户选中该短信的时候,可以在该短信对应的显示区域上显示该短信对应的功能控件,如图8中(b)所示,所述功能控件包括复制、转发、删除、地址识别、更多等功能控件。当用户点击如图8中(b)所示的地址控件时,可以对该短信进行地址识别,将该短信确定为目标文本。对图8的一些描述,可以参见对图5的相关描述,在此不再赘述。下面将该短信称为目标文本来进行描述。
确定目标文本对应的文本语种为英语。按照英语的分词规则(例如,根据文本中的空格进行分词),对目标文本进行分词,得到分词文本。例如,如图9所示,图9中(a)为分词前的目标文本,分词时,可以对文本中的特殊字符进行删除处理,图9中(b)为分词后得到的分词文本,分词文本中包括多个分词。
根据英语对应的地址词典,在分词文本中确定特征词。例如,如图10所示,图10中(a)为分词文本,图10中(b)中包含虚线框的分词为根据英语对应的地址词典确定的特征词。确定特征词的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。可以理解的是,图10所示实施例中英语对应的地址词典中包括了组成地址的地点词“Avenue”(为组成地址的地点词中泛指地址的地点词,表示街道)、“VIC”(为组成地址的地点词中表示具体地址的地点词,表示维多利亚州)。图10所示实施例中英语对应的地址词典中还可以包括地址邮编对应的地址表达规则,如由四位阿拉伯数字表示地址邮编。根据上述英语对应的地址词典记录的内容,可以将如图10中(a)所示的分词文本中的分词“Avenue”(在英语对应的地址词典中记录)、分词“VIC”(在英语对应的地址词典中记录)和分词“3052”(符合地址邮编对应的地址表达规则)确定为特征词。在图10所示实施例中,还可以包括若分词文本中有一阿拉伯数字在英语对应的地址词典不存在相应的记录,将所述阿拉伯数字确定为特征词。例如,图10中(a)所示的分词文本中的分词“92”在英语对应的地址词典不存在相应的记录,将分词“92”确定为特征词。
在确定特征词之后,根据预设的标注词对确定的特征词进行标注,根据预设的标注词对确定的特征词进行标注的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。可以理解的是,如图10所示实施例中对应的预设的特征词对应的标注词可以包括组成地址的特征词的标注词为<ADD>、表示地址邮编的特征词的标注词为<PST>和在所述目标文本的文本语种对应的地址词典中不存在相应记录的阿拉伯数字的标注词为<NUM>。根据上述特征词对应的标注词对特征词进行标注,如图10中(c)所示,将分词“92”标注为“<NUM>”,将分词“Avenue”标注为“<ADD>”,将分词“VIC”标注为“<ADD>”,将分词“3052”标注为“<PST>”。
根据确定的特征词和英语对应的地址书写规则(例如,首字母大小写),在分词文本中,确定目标文本对应的目标子序列。可以通过特征词和地址书写规则在分词文本中进行两边扩散,确定目标文本对应的目标子序列。两边扩散的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。若不符合地址书写规则的容忍值为1时,在该分词文本中可以确定了目标文本对应的两个目标子序列:“Avenue Parkville VIC 3052”、“92 theAvenue Parkville VIC 3052”(该子序列中包括一个不为特征词且不符合地址书写规则的分词“the”)。
按照预设的文本特征提取规则,分别确定每个目标子序列对应的文本特征。文本特征可以包括地址上文特征、地址下文特征、地址起点特征和地址终点特征。确定文本特征的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。
例如,“92 the Avenue Parkville VIC 3052”对应的地址上文特征为“homeaddress is”、地址下文特征为“you are welcome”、地址起点特征为“92 the Avenue”和地址终点特征为“Parkville VIC 3052”。在本申请的一些实施例中,“92 the AvenueParkville VIC 3052”还包括地址全文特征,地址全文特征为“92 the Avenue ParkvilleVIC 3052”。其中,分词0用于补位,是无意义的。
又例如,“Avenue Parkville VIC 3052”对应的地址上文特征为“is 92the”、地址下文特征为“you are welcome”、地址起点特征为“Avenue Parkville VIC”和地址终点特征为“Parkville VIC 3052”。在本申请的一些实施例中,“Avenue Parkville VIC 3052”还包括地址全文特征,地址全文特征为“Avenue Parkville VIC 3052”。其中,分词0用于补位,是无意义的。
分别将目标子序列“92 the Avenue Parkville VIC 3052”对应的文本特征和目标子序列“Avenue Parkville VIC 3052”对应的文本特征输入英语对应的地址识别模型中,得到每个目标子序列对应的地址概率。根据每个目标子序列对应的地址概率,在两个目标子序列中确定所述目标文本中的地址文本。可以将地址概率大的目标子序列确定为所述目标文本中的地址文本。例如,若目标子序列“92 the Avenue Parkville VIC 3052”的地址概率为0.9,目标子序列“Avenue Parkville VIC 3052”的地址概率为0.7,确定目标子序列“92 the Avenue Parkville VIC 3052”为所述目标文本中的地址文本。
上述文本地址识别方法用于识别英语的实施例中的一些具体实施方式,可以参见对图1的相关描述,在此不再赘述。
图11为本申请实施例提供的一种电子设备100的结构示意图。参考图11,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserial bus,USB)接口130,充电管理模块120,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I1C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I1C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。I2S接口可以用于音频通信。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN),蓝牙(bluetooth,BT),全球导航卫星系统(globalnavigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为服务异常提醒的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。
在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器121可以包括一个或多个随机存取存储器(random access memory,RAM)和一个或多个非易失性存储器(non-volatile memory,NVM)。
外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备100平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of theUSA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以陀螺仪传感器180B的定位,更新显示界面上显示的桌面卡片。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备100姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。
骨传导传感器180M可以获取振动信号。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多帧卡。所述多帧卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
本实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备100上运行时,使得电子设备100执行上述相关方法步骤实现上述实施例中的文本地址识别方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的文本地址识别方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的文本地址识别方法。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (14)

1.一种文本地址识别方法,其特征在于,所述方法应用于电子设备,所述方法包括:
确定地址识别对应的目标文本;
根据所述目标文本的文本语种对应的地址词典,在所述目标文本中确定特征词;
根据所述特征词和所述目标文本的文本语种对应的地址书序规则,在所述目标文本中确定目标子序列;
按照预设的特征提取规则,确定所述目标子序列对应的文本特征;
将所述文本特征输入所述目标文本的文本语种对应的地址识别模型中,得到所述目标子序列对应的地址概率。
2.根据权利要求1所述的文本地址识别方法,其特征在于,所述根据所述目标文本的文本语种对应的地址词典,在所述目标文本中确定特征词包括:
若所述目标文本中一单词与所述目标文本的文本语种对应的地址词典中记载的一个词相同,将所述单词确定为特征词;或者
若所述目标文本中一单词与所述目标文本的文本语种对应的地址词典中记录的一个地址表达规则相匹配,将所述单词确定为特征词。
3.根据权利要求2所述的文本地址识别方法,其特征在于,所述方法还包括:
若所述目标文本中存在一阿拉伯数字,将所述阿拉伯数字确定为特征词。
4.根据权利要求1所述的文本地址识别方法,其特征在于,在所述目标文本中确定特征词之后,所述方法还包括:
使用预设的标注词或标注符号,对所述特征词进行标注。
5.根据权利要求1所述的文本地址识别方法,其特征在于,所述在所述目标文本中确定目标子序列包括:
对确定的每个特征词进行两边扩散;
确定每次扩散后得到的分词是否符合所述目标文本的文本语种对应的地址书写规则;
根据判断结果确定目标子序列,所述两边扩散包括上文扩散和下文扩散。
6.根据权利要求5所述的文本地址识别方法,其特征在于,所述根据判断结果确定目标子序列包括:
根据判断结果,确定是否停止两边扩散;
若停止两边扩散,根据在所述目标文本中停止两边扩散的位置,确定目标子序列。
7.根据权利要求5所述的文本地址识别方法,其特征在于,所述确定每次扩散后得到的分词是否符合所述目标文本的文本语种对应的地址书写规则包括:
若扩散得到的分词不为特征词,确定所述分词是否符合所述目标文本的文本语种对应的地址书写规则。
8.根据权利要求5所述的文本地址识别方法,其特征在于,对确定的每个特征词进行两边扩散之后,所述方法还包括:
若一次扩散得到的分词不为特征词且所述分词不符合所述目标文本的文本语种对应的地址书写规则,停止扩散,所述扩散包括上文扩散或下文扩散。
9.根据权利要求8所述的文本地址识别方法,其特征在于,所述若一次扩散得到的分词不为特征词且所述分词不符合所述目标文本的文本语种对应的地址书写规则,停止扩散包括:
若一次扩散得到的分词不为特征词且所述分词不符合所述目标文本的文本语种对应的地址书写规则,确定当前不符合地址书写规则的次数是否超过容忍值;
若超过所述容忍值,停止扩散。
10.根据权利要求1所述的文本地址识别方法,其特征在于,所述文本特征包括地址上文特征、地址下文特征、地址起点特征和地址终点特征。
11.根据权利要求1所述的文本地址识别方法,其特征在于,所述在所述目标文本中确定特征词包括:
对所述目标文本进行分词,得到分词文本;
在所述分词文本中确定特征词。
12.根据权利要求1所述的文本地址识别方法,其特征在于,所述确定地址识别对应的目标文本包括:
基于用户对所述电子设备上地址识别控件的操作,确定地址识别对应的目标文本。
13.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于读取所述存储器中存储的所述程序指令,以实现如权利要求1至12中任意一项所述的文本地址识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至12中任意一项所述的文本地址识别方法。
CN202210567476.8A 2022-05-23 2022-05-23 文本地址识别方法、电子设备及存储介质 Active CN116050402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210567476.8A CN116050402B (zh) 2022-05-23 2022-05-23 文本地址识别方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210567476.8A CN116050402B (zh) 2022-05-23 2022-05-23 文本地址识别方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116050402A true CN116050402A (zh) 2023-05-02
CN116050402B CN116050402B (zh) 2023-10-20

Family

ID=86124344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210567476.8A Active CN116050402B (zh) 2022-05-23 2022-05-23 文本地址识别方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116050402B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679867A (zh) * 2015-03-05 2015-06-03 深圳市华傲数据技术有限公司 基于图的地址知识处理方法及装置
US20170308524A1 (en) * 2016-04-26 2017-10-26 International Business Machines Corporation Structured dictionary population utilizing text analytics of unstructured language dictionary text
CN112052668A (zh) * 2020-08-13 2020-12-08 丰图科技(深圳)有限公司 地址文本识别模型的训练方法、地址的预测方法及装置
CN112329467A (zh) * 2020-11-03 2021-02-05 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112633003A (zh) * 2020-12-30 2021-04-09 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质
CN113887229A (zh) * 2021-09-29 2022-01-04 平安普惠企业管理有限公司 地址信息的识别方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679867A (zh) * 2015-03-05 2015-06-03 深圳市华傲数据技术有限公司 基于图的地址知识处理方法及装置
US20170308524A1 (en) * 2016-04-26 2017-10-26 International Business Machines Corporation Structured dictionary population utilizing text analytics of unstructured language dictionary text
CN112052668A (zh) * 2020-08-13 2020-12-08 丰图科技(深圳)有限公司 地址文本识别模型的训练方法、地址的预测方法及装置
CN112329467A (zh) * 2020-11-03 2021-02-05 腾讯科技(深圳)有限公司 地址识别方法、装置、电子设备以及存储介质
CN112633003A (zh) * 2020-12-30 2021-04-09 平安科技(深圳)有限公司 一种地址识别方法、装置、计算机设备及存储介质
CN113887229A (zh) * 2021-09-29 2022-01-04 平安普惠企业管理有限公司 地址信息的识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN116050402B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN110111787B (zh) 一种语义解析方法及服务器
EP3933830A1 (en) Speech interaction method and apparatus, terminal and storage medium
US20220094858A1 (en) Photographing method and electronic device
CN111881315A (zh) 图像信息输入方法、电子设备及计算机可读存储介质
WO2021254411A1 (zh) 意图识别方法和电子设备
US20210383798A1 (en) Human-Computer Interaction Method and Electronic Device
WO2021169351A1 (zh) 指代消解的方法、装置及电子设备
CN112256868A (zh) 零指代消解方法、训练零指代消解模型的方法及电子设备
CN114140365A (zh) 基于事件帧的特征点匹配方法及电子设备
CN116050402B (zh) 文本地址识别方法、电子设备及存储介质
WO2023071441A1 (zh) 通信录字母的显示方法、装置和终端设备
CN114943976B (zh) 模型生成的方法、装置、电子设备和存储介质
CN113660369B (zh) 来电处理及模型训练方法、装置、终端设备和存储介质
WO2021031862A1 (zh) 一种数据处理方法及其装置
CN116828100A (zh) 蓝牙音频播放方法、电子设备及存储介质
CN115878500A (zh) 内存回收方法、装置、电子设备及可读存储介质
CN114489469A (zh) 一种数据读取方法、电子设备及存储介质
CN114003319A (zh) 一种灭屏显示的方法和电子设备
CN114945176B (zh) 剪切板访问管控方法、电子设备及存储介质
CN116052648B (zh) 一种语音识别模型的训练方法、使用方法及训练系统
CN112416984B (zh) 一种数据处理方法及其装置
CN113885785B (zh) 一种数据去重方法及装置
WO2023222097A1 (zh) 一种文本识别方法及相关装置
CN117113974B (zh) 文本分段方法、装置、芯片、电子设备及介质
CN114666441B (zh) 一种调用其他设备能力的方法、电子设备、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant