CN106919614A - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN106919614A
CN106919614A CN201510999017.7A CN201510999017A CN106919614A CN 106919614 A CN106919614 A CN 106919614A CN 201510999017 A CN201510999017 A CN 201510999017A CN 106919614 A CN106919614 A CN 106919614A
Authority
CN
China
Prior art keywords
unit
image
font
word
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510999017.7A
Other languages
English (en)
Other versions
CN106919614B (zh
Inventor
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201510999017.7A priority Critical patent/CN106919614B/zh
Publication of CN106919614A publication Critical patent/CN106919614A/zh
Application granted granted Critical
Publication of CN106919614B publication Critical patent/CN106919614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息处理方法,所述方法包括:确定用户的输入请求,所述输入请求携带有第一检索词;判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元;如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;对所述第一检索集合中的每一检索词进行检索,得到检索结果;对所述检索结果进行处理。本发明同时还公开了一种信息处理装置。

Description

一种信息处理方法及装置
技术领域
本发明涉及信息处理技术,尤其涉及一种信息处理方法及装置。
背景技术
个人融合通信黄页功能,是将传统黄页搬到融合通信手机上或融合通信应用(APP,Application)中,利用手机为载体,发行、传播、应用的电话号码簿功能,使用户通过一个入口,既可以检索手机联系人信息,又可以检索网上黄页的信息。检索的功能类似于百度、谷歌的搜索引擎,只是这种号码垂直搜索引擎是以手机本身为入口,随时随地拿起手机,便可轻松查询企业的基本信息或服务介绍。
如何理解用户输入的真实需求,是搜索引擎要解决的核心问题之一。但是移动互联网时代,用户通过手机屏幕进行文字输入时,会受到屏幕尺寸、触摸灵敏度、用户输入的熟练程度等影响,而导致输入错误的信息。尤其对于采用手写输入的用户,更加容易输入字形相近但意义截然不同的信息,比如“已”和“己”、“鸟”和“乌”、“龙”和“尤”等。如果搜索引擎不能识别这种非主观意识造成的输入错误,那么搜索结果会千差万别,让用户无法更快更准的找到相应的信息。现有搜索引擎的常用做法有两种:1)提示用户“您是不是要搜索XX”;2)通过建议提示用户可能的输入。但这样都会增加用户的操作步骤和学习成本。如果能从根源上理解用户的需求,直接帮用户避免这样的错误,会提升用户使用的体验。因此,如何有效的建立纠错词库是亟需解决的关键问题。业界还没有完全公开免费的电子版纠错词库直接应用于搜索引擎。
目前业界有如下几种解决方案:1、首先分别计算两个汉字的笔划总数,如果两个汉字的笔划总数相差大于某一数量,则认为两个汉字不是形近字;如果笔划总数相差小于或等于上述某一数量,则取笔划总数较少的汉字的每一个笔段,计算它与另一汉字中同种类型笔划的最小距离,把计算得到的最小距离累加,如果累加距离除以笔划总数较少汉字的笔划数大于某一值,则认为不是形近字,否则为形近字。2、中文变异文本匹配识别方法,即构建由通配符和标识符组成的基于部首字符编码表及模式字符串编码转换编码表。3、通过输入汉字的笔划总数及笔顺来判断相似度高低,即笔划数相同,笔顺相同率达到90%为高,达到70%以上为中,60%以上为低;笔划数相差1和笔划数相差2的依次类推。4、根据五笔编码规则,比较两个文字的编码字符串之间的编码距离,小于预设的距离阈值时,判断两个字为形近字。5、通过用户的主动输入和纠错行为,统计出可能的形近字。现有技术方案存在如下问题:1)前四种技术方案本质上是相似的,都是需要对中文汉字有深入的理解,如汉字有多少种笔划、中文正确的笔划顺序是什么,五笔编码规则是什么。对于刚起步或者缺乏搜索引擎经验的产品研发团队,要想全面完整的搜集到上述信息,并转化成计算机可以理解的规则,是解决形近字判断过程中引出的另一个难题。2)第五种技术方案需要通过大量样本的积累,且用户在不同产品中的行为存在较大差异,样本的差异可能影响到词库的结果。并且用户的输入有限,不能覆盖全部常用中文汉字。
发明内容
有鉴于此,本发明实施例为解决现有技术中存在的至少一个问题而提供一种信息处理方法及装置,能够提升纠错词库的准确率和覆盖率。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种信息处理方法,所述方法包括:
确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;
判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;
如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;
对所述第一检索集合中的每一检索词进行检索,得到检索结果;
对所述检索结果进行处理。
第二方面,本发明实施例提供一种信息处理装置,所述装置包括第一确定单元、判断单元、第二确定单元、检索单元和处理单元,其中:
所述第一确定单元,用于确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;
所述判断单元,用于判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;
所述第二确定单元,用于如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;
所述检索单元,用于对所述第一检索集合中的每一检索词进行检索,得到检索结果;
所述处理单元,用于对所述检索结果进行处理。
本发明实施例提供一种信息处理方法及装置,其中,确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;对所述第一检索集合中的每一检索词进行检索,得到检索结果;对所述检索结果进行处理;如此,能够提升纠错词库的准确率和覆盖率。
附图说明
图1为本发明实施例一信息处理方法的实现流程示意图;
图2为本发明实施例二形成第一词汇库的实现流程示意图;
图3-1至图3-7为本发明实施例图像库中的图像示意图;
图3-8为本发明实施例中信息处理装置的组成结构示意图;
图3-9为本发明实施例中信息处理装置的使用场景示意图;
图4为本发明实施例四信息处理装置的组成结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
实施例一
为了解决背景技术中存在的技术问题,本发明实施例提供一种信息处理方法,该信息处理方法应用于电子设备,该信息处理方法所实现的功能可以通过计算设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该计算设备至少包括处理器和存储介质。在具体实现的过程中,所述计算设备可以是任何具有数据处理能力的电子设备,例如,个人计算机等设备。
图1为本发明实施例一信息处理方法的实现流程示意图,如图1所示,该信息处理方法包括:
步骤S101,确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;
这里,所述输入请求用于根据所述输入请求中的第一检索词得到检索结果,例如,如果用户在终端(如智能手机)的黄页界面输入“儿童医院”时,那么终端就将“儿童医院”作为第一检索词,然后将第一检索词携带于输入请求中,发送给计算设备。一般来说,用户的查询都是实时的,那么计算设备处理输入请求也是实时的,作为一种优选的实施例,步骤S101,所述确定用户的输入请求至少包括:计算设备接收终端发送的用户的输入请求。作为本发明的另一种实施例,计算设备对输入请求的处理也可以不是实时的,步骤S101,所述确定用户的输入请求至少包括:存储设备接收终端发送的用户的输入请求,然后存储设备将输入请求进行存储,并形成数据请求流;当计算设备上线(开机或可以正常工作)后,计算设备从存储设备的数据请求流中获取数据请求。从以上可以看出,本发明实施例中的计算设备相对于用户的终端来说,是服务器侧。
步骤S102,判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;
这里,本发明各实施例提供的信息处理方法,可以应用于多种语种,例如,可以包括日语、英语、韩国语、汉语等,为了描述起来简便以及便于理解,在本发明以下的实施例中的举例,将以汉语为例进行说明。本领域的技术人员应该理解的是,根据本发明各实施例描述的方法可以应用于其他的语种,本发明就不再赘述。
这里,如果本实施例应用于汉语,那么检索词中的一个字体单元可以为一个单独的汉字,例如步骤S101中的“儿童医院”作为第一检索词,那么第一字体单元可以为“儿”、“童”、“医”或“院”。如果本实施例应用于英语,那么检索词中的第一个字体单元可以为一个单词。
步骤S103,如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合;
这里,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;举例来说,用户输入“AB”,如果AB中的每一个字体单元都存在第二字体单元(即A存在对应的纠错词A’,B存在对应的纠错词B’),那么第一检索集合是是A、B、A’和B’组成的全排列组合,AB、A’B、AB’和A’B’。需要说明的是,一个字体单元当然可以包括一个及其一个以上的字体单元,例如字体单元D的第二字体单元包括D’、D”。
这里,所述第一词汇库可以理解为纠错词库,例如“已”和“己”、“鸟”和“乌”、“龙”和“尤”都可以存储在纠错词库中,分别作为对方的纠错词(第二字体单元)。
步骤S104,对所述第一检索集合中的每一检索词进行检索,得到检索结果;
步骤S105,对所述检索结果进行处理。
本发明实施例中,步骤S105,所述对所述检索结果进行处理,包括:
步骤S151,将满足条件的检索结果携带于数据响应中;
步骤S152,将所述数据响应输出。
这里,所述将所述数据响应输出,至少包括:将所述数据响应返回给用户(的终端)。
实施例二
基于前述的实施例,本发明实施例提供一种形成实施例一中第一词汇库的方法,图2为本发明实施例二形成第一词汇库的实现流程示意图,如图2所示,该方法包括:
步骤S201,根据第二词汇库生成图像库,所述图像库中的图像上显示的文字区域对应为所述第二字库中的文字;
这里,所述图像库中的图像可以包括图片。以汉字为例,第二词汇库可以为汉字库,那么图像库中的图像可以参见图3-1至图3-7所示,第二词汇库中包括龙、项、己等汉字,那么图像中的文字区域对应的汉字也为龙、项、己等汉字。
步骤S202,计算所述图像库中每一图像上文字区域的面积,并将所述图像上所述文字区域的面积与所述图像对应的文字建立关联信息;
这里,所述关联信息在具体实现的过程中可以为关联列表或映射列表,用于表明所述文字区域的面积与所述图像对应的文字之间的对应关系。
步骤S203,如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2不满足预设的第二关系表达式,则确定所述Y1与所述Y2的重合面积Y3;
这里,所述第二关系表达式为:|Y1-Y2|>(Y1+Y2)×L%/2,L为设定的阈值,所述L为整数。
步骤S204,如果所述Y3、所述Y1和所述Y2满足预设的第三关系表达式,则确定所述第一图像对应的文字与所述第二图像对应的文字为形近字,并将所述第一图像对应的文字作为所述第二图像对应的文字的形近字加入所述第一词汇库,以及所述第二图像对应的文字作为所述第一图像对应的文字的形近字加入所述第一词汇库。
这里,所述第三关系表达式为:|Y3-Y1|≤Y1×L1%且|Y3-Y2|≤Y2×L2%,其中,所述L1和所述L2为设定的阈值,所述L1为整数,所述L2为整数。
从以上实施例可以看出,在形成第一词汇库时,先获取将要比对的两个汉字的面积Y,如果两个面积之差的绝对值与两个面积之和满足第二关系表达式:|Y1-Y2|>(Y1+Y2)×L%/2,其中L为设定阈值,L的取值范围在[1-100]的整数,则判定两个汉字不为形近字。如果两个面积之差的绝对值与两个面积之和不满足第二关系表达式,判断两个汉字可能为形近字,然后将面积小的图像置于水平面上,用点光源在图像中心位置上方H高度处进行照射,然后利用同样的方法将第二张图像与之重叠,调用文字面积计算模块算出两张图像重叠后的阴影面积Y3。
如果所述Y3、所述Y1和所述Y2满足预设的第三关系表达式:|Y3-Y1|≤Y1×L1%&|Y3-Y2|≤Y2×L2%,其中L1和L2为设定阈值,L1和L2的取值范围为[1-100]的整数,则判定两个汉字为形近字。如果所述Y3、所述Y1和所述Y2不满足预设的第三关系表达式,判断两个汉字不为形近字。另外由于形近字实际上是一种相互关系,如果第一字是第二字是形近字的,则将该第一字添加入第一词汇库作为第二字的纠错字,以及该第二字添加入第一词汇库作为第一字的纠错字。
本发明实施例中,所述方法还包括:
步骤S206,如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2满足预设的第二关系表达式,则流程结束;
步骤S207,如果所述Y3、所述Y1和所述Y2不满足预设的第三关系表达式,则流程结束。
本发明实施例中,所述计算所述图像库中每一图像上文字区域的面积,包括:
步骤S221,如果所述图像上的文字区域对应有像素点,则Y计数加一;
如果所述图像上的非文字区域对应有像素点,则N计数加一,其中,所述Y初始为0,所述N初始为0;
如果Y与N之和与所述图像的所有图像点满足预设的第一关系表达式,则所述图像的文字区域的面积为Y;如果Y与N之和与所述图像的所有图像点不满足预设的第一关系表达式,则重复计算所述Y和所述N,直至所述Y和所述N满足所述第一关系表达式。
这里,所述第一关系表达式为Y+N=S,其中S表示图像的总面积,如果采用像素来表示时,S则表示一个图像上所有的图像点,当一个图像采用M×M的像素块表示时,则S=M×M。
本发明实施例中,当第一词汇库形成之后,上述的阈值L、L1、L2可以根据用户对数据响应的反馈来自动调整,一般来说,当计算设备将携带有鸡蛋做结果的数据响应发送给终端之后,用户就会根据自己的需求点击检索结果,这样本发明实施例提供的方法还包括:
步骤S208,获取用户对所述检索结果的点击结果;
步骤S209,根据所述点击结果调整阈值L、L1、L2至少之一。
例如,计算设备根据前十条检索结果的点击次数与展现次数的比例在纠错词库上线前后的变化,如果变化率未达到设定的阈值,则发出预警,来调整阈值L、L1、L2的设置。
实施例三
本发明实施例提出一种信息处理装置,该装置基于文字阴影面积的纠错词库的生成装置,该装置一方面能够利用文字阴影面积叠加的简单方法来判断两个汉字是否形近,因此,该装置实现起来比较容易;另一方面,利用运营商提供的融合通信即时通信服务能覆盖几亿用户,从而能够有效提升纠错词库的准确率和覆盖率。
本发明实施例提供的信息处理装置主要包括中文汉字初始化模块、文字面积计算模块、形近字判断模块、纠错词库生成模块、用户请求识别模块、检索和匹配模块、纠错词库验证模块等模块,其中:
1)中文汉字初始化模块
据了解,1994年出版的《中华字海》收入了87019个汉字,而已经通过专家鉴定的北京国安咨询设备公司的汉字字库,收入有出处的汉字91251个,据称是目前全国最全的字库,但其中多数为异体字和罕用字。国家在1988年公布的《现代汉语常用字表》选收了2500个常用字、1000个次常用字,总共只有3500字。据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字时已到99%,简体与繁体的统计结果相差不大。
首先将中文里常用3500个汉字生成M×M(本实施例采用16×16,兼顾准确性和扫描效率)像素的正方形图像,该图像文字字体可以为宋体楷体等字体,字体居中放置并填充为黑色,对图像进行去像素化,使文字以外的区域透明。参见图3-1至图3-6,图3-1至图3-6中以宋体为例,且汉字居中放置。由此形成的库叫汉字原始库,该库一次生成后无需修改,直接放置在内存中待用即可。
2)文字面积计算模块,由于图像中文字是黑色填充,其他区域进行了透明化处理,可以通过遍历每个像素的方式进行面积的计算。该计算方法包括:
步骤1-1)如果该像素点有颜色,则Y计数加一(Y初始为0),其中Y表示图像库中图像上的汉字在图像上所占的像素数目;
步骤1-2)如果该像素上无颜色填充,则N计数加一(N初始为0),其中N表示图像上非汉字区域在图像上所占的像素的数目;
步骤1-3)如果Y+N=M×M(16×16),则该文字的面积为Y;如果Y+N≠M×M,则重复步骤1-1)、1-2)、1-3)。
步骤1-4)将计算出的面积与该文字做一对一的关联。
如果因为M的选择导致某些像素点仅有部分颜色填充时,该计算方法包括:
步骤2-1)如果该像素点有颜色全覆盖,则Y11计数加一(Y11初始为0);
步骤2-2)如果该像素点的二分之一有颜色覆盖,则Y12计数加一(Y12初始为0);
步骤2-3)如果该像素点大于二分之一的面积有颜色覆盖,则Y13计数加一(Y13初始为0);
步骤2-4)如果该像素点的小于二分之一的面积有颜色覆盖,则Y14计数加一(Y14初始为0);
步骤2-5)如果该像素上无颜色填充,则N计数加一(N初始为0);
步骤2-6)如果Y11+Y12+Y13+Y14+N=M×M(16×16),则该文字的面积为Y=Y11+Y12/2+Y13*0.75+Y14*0.25;如果Y11+Y12+Y13+Y14+N≠M×M,则重复步骤2-1)、2-2)、2-3)、2-4)、2-5)和2-6)。
步骤2-7)将计算出的面积与该文字做一对一的关联。
3)形近字判断模块,首先获取将要比对的两个汉字的面积Y,假设第一个汉字的面积为Y1,而第二个字体的面积为Y2,则:
如果两个面积之差的绝对值|Y1-Y2|与两个面积之和(Y1+Y2)满足关系表达式1:|Y1-Y2|>(Y1+Y2)×L%/2,其中,L为设定阈值,L的取值范围在[1-100]的整数;则判定两个汉字不为形近字。如果两个面积之差的绝对值|Y1-Y2|与两个面积之和(Y1+Y2)不满足关系表达式1,则判断两个汉字可能为形近字;然后将面积小的图像置于水平面上,用点光源在图像中心位置上方H高度处进行照射,然后利用同样的方法将第二张图像与之重叠,调用文字面积计算模块算出两张图像重叠后的阴影面积Y3。
如果阴影面积Y3与面积Y1和Y2满足关系表达式2,|Y3-Y1|≤Y1×L1%&|Y3-Y2|≤Y2×L2%,其中L1和L2为设定阈值,L1和L2的取值范围在[1-100]的整数,则判定两个汉字为形近字。如果阴影面积Y3与面积Y1和Y2不满足关系表达式2,则判断两个汉字不为形近字。
4)纠错词库生成模块,将汉字原始库中的汉字一一遍历,利用形近字判断模块进行匹配,生成单字的形近字纠错词库。对该形近字纠错词库进行索引,方便检索。
5)用户请求识别模块,参见图3-8所示,用户请求接收用户在融合通信终端中的输入,如用户输入“ABC”,如果B存在对应的纠错词B’,则同时将“ABC”和“AB’C”输入检索和匹配模块。
6)检索和匹配模块,用于根据用户的输入请求去纠错词库索引纠错词,然后根据纠错词形成关键词去检索相应的结果(检索结果),并将检索结果发送给反馈结果模块;
7)反馈结果模块,用于将通过融合通信终端呈现给用户。
8)纠错词库验证模块(图3-8中未示出),用户在融合通信终端检索后,根据前十条结果的点击次数与展现次数的比例在纠错词库上线前后的变化,如果变化率未达到设定的阈值,则给装置发出预警,来调整阈值L、L1、L2的设置。
在具体实现的过程中,本发明实施例所提供的装置可以设置在黄页平台中,其中参见图3-9所示,黄页平台92通过新联系模块91接入融合通信业务平台。
从以上可以看出,本发明实施例提供一种基于文字阴影面积判断两个汉字是否是形近字的方法,该方法中包括以下技术手段:1)利用汉字都是方块字的特点以及中文不同字体的特点,把汉字生成M×M像素的正方形图像,该图像文字字体为宋体、居中放置并填充为黑色,对图像进行去像素化,使文字以外的区域透明。2)遍历所有像素点,通过颜色覆盖的多少来计算文字面积。3)通过两个文字面积之差的绝对值大于设定阈值时,判断两个汉字不是形近字,减少比对的次数,提高词库生成的效率。4)通过两个文字面积之差的绝对值小于等于设定阈值时,将面积小的图像置于水平面上,用点光源在图像中心位置上方固定高度处进行照射,然后利用同样的方法将第二张图像与之重叠,计算出两张图像重叠后的投影面积。通过该面积与原始2个文字的面积做比对,如果小于设定阈值,则认为两个字是形近字。正是基于以上的手段,本发明实施例能够带来以下技术优点:1)利用直观的比对方法进行形近字的判断,方法简单、效果好;2)算法可扩展性好,无论是中文简体、繁体,算法可以直接复用;3)能根据用户在融合通信终端的行为数据不断优化阈值的设置,从而能智能的识别当前阈值是否合适,因此不需要管理员自己去触发阈值的调整。
实施例四
基于前述的实施例,本发明实施例提供一种信息处理装置,该装置所包括的各单元,以及各单元所包括的各模块,都可以通过计算设备中的处理器来实现,当然也可通过具体的逻辑电路实现;在具体实施例的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图4为本发明实施例四信息处理装置的组成结构示意图,如图4所示,该装置400包括第一确定单元401、判断单元402、第二确定单元403、检索单元404和处理单元405,其中:
所述第一确定单元401,用于确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;
所述判断单元402,用于判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;
所述第二确定单元403,用于如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;
所述检索单元404,用于对所述第一检索集合中的每一检索词进行检索,得到检索结果;
所述处理单元405,用于对所述检索结果进行处理。
本发明实施例中,所述处理单元包括携带模块和输出模块,其中:
所述携带模块,用于将满足条件的检索结果携带于数据响应中;
所述输出模块,用于将所述数据响应输出。
本发明实施例中,所述装置还包括形成单元,所述形成单元用于形成第一词汇库,所述形成单元进一步包括生成单元、计算单元、第三确定单元和第四确定单元,其中:
所述生成单元,用于根据第二词汇库生成图像库,所述图像库中的图像上显示的文字区域对应为所述第二字库中的文字;
所述计算单元,用于计算所述图像库中每一图像上文字区域的面积,并将所述图像上所述文字区域的面积与所述图像对应的文字建立关联信息;
所述第三确定单元,用于如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2不满足预设的第二关系表达式,则确定所述Y1与所述Y2的重合面积Y3;
所述第四确定单元,用于如果所述Y3、所述Y1和所述Y2满足预设的第三关系表达式,则确定所述第一图像对应的文字与所述第二图像对应的文字为形近字,并将所述第一图像对应的文字作为所述第二图像对应的文字的形近字加入所述第一词汇库,以及所述第二图像对应的文字作为所述第一图像对应的文字的形近字加入所述第一词汇库。
这里,所述形成单元还包括:结束单元,用于如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2满足预设的第二关系表达式,则流程结束;如果所述Y3、所述Y1和所述Y2不满足预设的第三关系表达式,则流程结束。
本发明实施例中,所述计算单元包括第一累加模块、第二累加模块和处理模块,其中:
所述第一累加模块,用于如果所述图像上的文字区域对应有像素点,则Y计数加一;
所述第二累计模块,用于如果所述图像上的非文字区域对应有像素点,则N计数加一,其中,所述Y初始为0,所述N初始为0;
所述处理模块,用于如果Y与N之和与所述图像的所有图像点满足预设的第一关系表达式,则所述图像的文字区域的面积为Y;如果Y与N之和与所述图像的所有图像点不满足预设的第一关系表达式,则重复计算所述Y和所述N,直至所述Y和所述N满足所述第一关系表达式。
这里,所述第二关系表达式为:
|Y1-Y2|>(Y1+Y2)×L%/2,L为设定的阈值,所述L为整数。
这里,所述第三关系表达式为:
|Y3-Y1|≤Y1×L1%且|Y3-Y2|≤Y2×L2%,其中,所述L1和所述L2为设定的阈值,所述L1为整数,所述L2为整数。
本发明实施例中,所述装置还包括获取单元和调整单元,其中:
所述获取单元,用于获取用户对所述检索结果的点击结果;
所述调整单元,用于根据所述点击结果调整阈值L、L1、L2、L1和L2。
这里需要指出的是:以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种信息处理方法,其特征在于,所述方法包括:
确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;
判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;
如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;
对所述第一检索集合中的每一检索词进行检索,得到检索结果;
对所述检索结果进行处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述检索结果进行处理,包括:
将满足条件的检索结果携带于数据响应中;
将所述数据响应输出。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据第二词汇库生成图像库,所述图像库中的图像上显示的文字区域对应为所述第二字库中的文字;
计算所述图像库中每一图像上文字区域的面积,并将所述图像上所述文字区域的面积与所述图像对应的文字建立关联信息;
如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2不满足预设的第二关系表达式,则确定所述Y1与所述Y2的重合面积Y3;
如果所述Y3、所述Y1和所述Y2满足预设的第三关系表达式,则确定所述第一图像对应的文字与所述第二图像对应的文字为形近字,并将所述第一图像对应的文字作为所述第二图像对应的文字的形近字加入所述第一词汇库,以及所述第二图像对应的文字作为所述第一图像对应的文字的形近字加入所述第一词汇库。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2满足预设的第二关系表达式,则流程结束;
如果所述Y3、所述Y1和所述Y2不满足预设的第三关系表达式,则流程结束。
5.根据权利要求3或4所述的方法,其特征在于,所述计算所述图像库中每一图像上文字区域的面积,包括:
如果所述图像上的文字区域对应有像素点,则Y计数加一;
如果所述图像上的非文字区域对应有像素点,则N计数加一,其中,所述Y初始为0,所述N初始为0;
如果Y与N之和与所述图像的所有图像点满足预设的第一关系表达式,则所述图像的文字区域的面积为Y;如果Y与N之和与所述图像的所有图像点不满足预设的第一关系表达式,则重复计算所述Y和所述N,直至所述Y和所述N满足所述第一关系表达式。
6.根据权利要求3所述的方法,其特征在于,所述第二关系表达式为:
|Y1-Y2|>(Y1+Y2)×L%/2,L为设定的阈值,所述L为整数。
7.根据权利要求3所述的方法,其特征在于,所述第三关系表达式为:
|Y3-Y1|≤Y1×L1%且|Y3-Y2|≤Y2×L2%,其中,所述L1和所述L2为设定的阈值,所述L1为整数,所述L2为整数。
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
获取用户对所述检索结果的点击结果;
根据所述点击结果调整阈值L、L1、L2、L1和L2。
9.一种信息处理装置,其特征在于,所述装置包括第一确定单元、判断单元、第二确定单元、检索单元和处理单元,其中:
所述第一确定单元,用于确定用户的输入请求,所述输入请求携带有第一检索词,所述第一检索词包括一个以及一个以上的字体单元;
所述判断单元,用于判断所述第一检索词中第一字体单元在预设的第一词汇库中是否存在第二字体单元,其中所述第一字体单元为所述第一检索词中的任意一个字体单元;
所述第二确定单元,用于如果所述第一字体单元在所述第一词汇库中存在第二字体单元,根据第二字体单元和所述第一检索词确定第一检索集合,所述第一检索集合至少包括第一检索词和由所述第二字体单元和第三字体单元所组成的检索词,其中所述第三字体单元包括所述第一检索词中除所述第一字体单元外的其他字体单元以及所述其他字体单元对应的第二字体单元;
所述检索单元,用于对所述第一检索集合中的每一检索词进行检索,得到检索结果;
所述处理单元,用于对所述检索结果进行处理。
10.根据权利要求9所述的装置,其特征在于,所述处理单元包括携带模块和输出模块,其中:
所述携带模块,用于将满足条件的检索结果携带于数据响应中;
所述输出模块,用于将所述数据响应输出。
11.根据权利要求9或10所述的装置,其特征在于,所述装置还包括生成单元、计算单元、第三确定单元和第四确定单元,其中:
所述生成单元,用于根据第二词汇库生成图像库,所述图像库中的图像上显示的文字区域对应为所述第二字库中的文字;
所述计算单元,用于计算所述图像库中每一图像上文字区域的面积,并将所述图像上所述文字区域的面积与所述图像对应的文字建立关联信息;
所述第三确定单元,用于如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2不满足预设的第二关系表达式,则确定所述Y1与所述Y2的重合面积Y3;
所述第四确定单元,用于如果所述Y3、所述Y1和所述Y2满足预设的第三关系表达式,则确定所述第一图像对应的文字与所述第二图像对应的文字为形近字,并将所述第一图像对应的文字作为所述第二图像对应的文字的形近字加入所述第一词汇库,以及所述第二图像对应的文字作为所述第一图像对应的文字的形近字加入所述第一词汇库。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:结束单元,用于如果所述图像库中第一图像上的文字区域的面积Y1与第二图像上的文字区域的面积Y2满足预设的第二关系表达式,则流程结束;如果所述Y3、所述Y1和所述Y2不满足预设的第三关系表达式,则流程结束。
CN201510999017.7A 2015-12-28 2015-12-28 一种信息处理方法及装置 Active CN106919614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510999017.7A CN106919614B (zh) 2015-12-28 2015-12-28 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510999017.7A CN106919614B (zh) 2015-12-28 2015-12-28 一种信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN106919614A true CN106919614A (zh) 2017-07-04
CN106919614B CN106919614B (zh) 2020-12-22

Family

ID=59455911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510999017.7A Active CN106919614B (zh) 2015-12-28 2015-12-28 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN106919614B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334612A (zh) * 2018-02-07 2018-07-27 华南理工大学 一种针对密文域的形近汉字全文模糊检索方法
CN110490190A (zh) * 2019-07-04 2019-11-22 贝壳技术有限公司 一种结构化图像文字识别方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN103927329A (zh) * 2014-03-19 2014-07-16 北京奇虎科技有限公司 一种即时搜索方法和系统
CN103927330A (zh) * 2014-03-19 2014-07-16 北京奇虎科技有限公司 一种在搜索引擎中确定形近字的方法和装置
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
US8995795B1 (en) * 2011-02-16 2015-03-31 Google Inc. Automated cleanup of digital volumes
CN104504579A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种信息审核方法和装置
CN104598473A (zh) * 2013-10-31 2015-05-06 联想(北京)有限公司 一种信息处理方法及电子设备
US20150278224A1 (en) * 2013-12-12 2015-10-01 Nant Holdings Ip, Llc Image Recognition Verification

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8995795B1 (en) * 2011-02-16 2015-03-31 Google Inc. Automated cleanup of digital volumes
CN102163234A (zh) * 2011-04-19 2011-08-24 北京百度网讯科技有限公司 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN104598473A (zh) * 2013-10-31 2015-05-06 联想(北京)有限公司 一种信息处理方法及电子设备
US20150278224A1 (en) * 2013-12-12 2015-10-01 Nant Holdings Ip, Llc Image Recognition Verification
CN103927329A (zh) * 2014-03-19 2014-07-16 北京奇虎科技有限公司 一种即时搜索方法和系统
CN103927330A (zh) * 2014-03-19 2014-07-16 北京奇虎科技有限公司 一种在搜索引擎中确定形近字的方法和装置
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN104504579A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种信息审核方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张扬: "拼写校正技术在信息检索和文本处理领域的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334612A (zh) * 2018-02-07 2018-07-27 华南理工大学 一种针对密文域的形近汉字全文模糊检索方法
CN108334612B (zh) * 2018-02-07 2022-03-29 华南理工大学 一种针对密文域的形近汉字全文模糊检索方法
CN110490190A (zh) * 2019-07-04 2019-11-22 贝壳技术有限公司 一种结构化图像文字识别方法及系统
CN110490190B (zh) * 2019-07-04 2021-10-26 贝壳技术有限公司 一种结构化图像文字识别方法及系统

Also Published As

Publication number Publication date
CN106919614B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
US11182823B2 (en) Automated creative extension selection for content performance optimization
US10614266B2 (en) Recognition and population of form fields in an electronic document
AU2014399168B2 (en) Automated click type selection for content performance optimization
CN108595519A (zh) 热点事件分类方法、装置及存储介质
CN108062375A (zh) 一种用户画像的处理方法、装置、终端和存储介质
CN106909694A (zh) 分类标签数据获取方法以及装置
CN106164906A (zh) 用于计算网页上的电话号码的显著性分值并且自动将其注释/附加至广告的方法
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
US9298685B2 (en) Automatic creation of multiple rows in a table
US20210350068A1 (en) Descriptive insight generation and presentation system
CA3048356A1 (en) Unstructured data parsing for structured information
CN102750552B (zh) 一种手写识别方法、系统及手写识别终端
CN108763320A (zh) 一种书写笔记数据存储方法、装置、终端及存储介质
CN103678460B (zh) 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统
CN107506296A (zh) 一种输入法测试方法、装置、电子设备及存储介质
CN103365876B (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN113408323B (zh) 表格信息的提取方法、装置、设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN115393872A (zh) 一种训练文本分类模型的方法、装置、设备及存储介质
CN110363206A (zh) 数据对象的聚类、数据处理及数据识别方法
CN106919614A (zh) 一种信息处理方法及装置
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN117496521A (zh) 一种表格关键信息抽取方法、系统、装置及可读存储介质
US20220067361A1 (en) Form processing and analysis system
US20210271637A1 (en) Creating descriptors for business analytics applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant