CN111597325B - 一种文本查询方法及装置 - Google Patents

一种文本查询方法及装置 Download PDF

Info

Publication number
CN111597325B
CN111597325B CN202010430929.3A CN202010430929A CN111597325B CN 111597325 B CN111597325 B CN 111597325B CN 202010430929 A CN202010430929 A CN 202010430929A CN 111597325 B CN111597325 B CN 111597325B
Authority
CN
China
Prior art keywords
text
target
recognized
entry
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010430929.3A
Other languages
English (en)
Other versions
CN111597325A (zh
Inventor
宋英双
谢硕
周正
谢卓
宋金昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010430929.3A priority Critical patent/CN111597325B/zh
Publication of CN111597325A publication Critical patent/CN111597325A/zh
Application granted granted Critical
Publication of CN111597325B publication Critical patent/CN111597325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本查询方法及装置,该方法包括:响应于利用词典笔对待识别文本的扫描操作,获取待识别文本;当待识别文本为中文文本时,判断待识别文本是否匹配得到目标诗词词条,若能,显示目标诗词词条以及目标诗词词条的解释文本;若不能,判断是否可以匹配到目标成语词条;若能,显示目标成语词条以及目标成语词条的解释文本;若不能,判断是否可以匹配到目标词语词条;若能,显示目标词语词条以及目标词语词条的解释文本;若不能,显示待识别文本以及待识别文本包括的各个汉字的解释文本。本申请实施例通过对待识别文本按照诗词、成语、词语和汉字的查询顺序进行查询,可以得到更为准确的查询结果。

Description

一种文本查询方法及装置
技术领域
本申请涉及数据处理技术领域,具体涉及一种文本查询方法及装置。
背景技术
词典笔可以理解为一种扫描式电子词典,通过对文本扫描取词的方式,实现对文本的查询。目前,词典笔通常实现的是对英文文本的扫描、查询。但是,在现有技术中,当使用词典笔扫描中文文本时,查询逻辑较为混乱,会存在扫描相同文本,出现的查询结果不一致的现象。
发明内容
有鉴于此,本申请实施例提供一种文本查询方法及装置,以解决词典笔扫描中文文本时,查询逻辑混乱的技术问题。
为解决上述问题,本申请实施例提供的技术方案如下:
一种文本查询方法,所述方法应用于词典笔,所述方法包括:
响应于利用所述词典笔对待识别文本的扫描操作,获取所述待识别文本;
当所述待识别文本为中文文本时,判断所述待识别文本是否能够匹配得到目标诗词词条;如果所述待识别文本能够匹配得到目标诗词词条,在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本;
如果所述待识别文本不能匹配得到目标诗词词条,判断所述待识别文本是否能够匹配得到目标成语词条;如果所述待识别文本能够匹配得到目标成语词条,在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本;
如果所述待识别文本不能匹配得到目标成语词条,判断所述待识别文本是否能够匹配得到目标词语词条;如果所述待识别文本能够匹配得到目标词语词条,在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本;
如果所述待识别文本不能匹配得到目标词语词条,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本包括的各个汉字的解释文本。
在一种可能的实现方式中,如果所述待识别文本不能匹配得到目标成语词条,在判断所述待识别文本是否能够匹配得到目标词语词条之前,所述方法还包括:
判断所述待识别文本包括的字符数是否大于预设阈值;
如果所述待识别文本包括的字符数大于预设阈值,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本对应的翻译文本;
如果所述待识别文本包括的字符数不大于预设阈值,触发判断所述待识别文本是否能够匹配得到目标词语词条。
在一种可能的实现方式中,如果所述待识别文本不能匹配得到目标成语词条,在判断所述待识别文本是否能够匹配得到目标词语词条之前,所述方法还包括:
判断所述待识别文本是否能够匹配得到目标专有词汇词条;
如果所述待识别文本能够匹配得到目标专有词汇词条,在所述词典笔的显示屏上显示所述目标专有词汇词条以及所述目标专有词汇词条的解释文本;
如果所述待识别文本不能匹配得到目标专有词汇词条,触发判断所述待识别文本是否能够匹配得到目标词语词条。
在一种可能的实现方式中,所述方法还包括:
当在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本时,将所述目标诗词词条切分为至少一个第一文本单元,每个所述第一文本单元包括成语、词语或汉字;响应于对所述目标诗词词条的第一触发操作,确定所述第一触发操作对应的第一文本单元;获取所述第一触发操作对应的第一文本单元的解释文本;在所述词典笔的显示屏上显示所述第一触发操作对应的第一文本单元的解释文本;
当在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本时,将所述目标成语词条切分为至少一个第二文本单元,每个所述第二文本单元包括词语或汉字;响应于对所述目标成语词条的第二触发操作,确定所述第二触发操作对应的第二文本单元;获取所述第二触发操作对应的第二文本单元的解释文本;在所述词典笔的显示屏上显示所述第二触发操作对应的第二文本单元的解释文本;
当在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本时,将所述目标词语词条切分为至少一个第三文本单元,每个所述第三文本单元包括汉字;响应于对所述目标词语词条的第三触发操作,确定所述第三触发操作对应的第三文本单元;获取所述第三触发操作对应的所述第三文本单元的解释文本;在所述词典笔的显示屏上显示所述第三触发操作对应的第三文本单元的解释文本。
在一种可能的实现方式中,所述将所述目标诗词词条切分为至少一个第一文本单元,包括:
如果所述目标诗词词条包括成语,将所述目标诗词词条包括的成语切分为第一文本单元;如果所述目标诗词词条中除成语之外的部分包括词语,将所述目标诗词词条包括的词语切分为第一文本单元;将所述目标诗词词条中除成语、词语之外的每个汉字切分为第一文本单元;
所述将所述目标成语词条切分为至少一个第二文本单元,包括:
如果所述目标成语词条包括词语,将所述目标成语词条包括的词语切分为第二文本单元;将所述目标成语词条中除词语之外的每个汉字切分为第二文本单元;
所述将所述目标词语词条切分为至少一个第三文本单元,包括:
将所述目标词语词条中每个汉字切分为第三文本单元。
在一种可能的实现方式中,所述方法还包括:
当所述待识别文本包括非中文文本以及中文文本时,获取所述待识别文本包括的中文字符数以及非中文字符数;
如果所述中文字符数大于非中文字符数,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
如果所述中文字符数不大于非中文字符数,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
在一种可能的实现方式中,所述方法还包括:
在获取所述待识别文本之后,根据用户的配置数据确定是否对所述待识别文本进行翻译;
当确定对所述待识别文本进行翻译,且当所述待识别文本为中文文本时,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
当确定对所述待识别文本进行翻译,且当所述待识别文本为非中文文本时,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
在一种可能的实现方式中,所述判断所述待识别文本是否能够匹配得到目标诗词词条,包括:
根据所述待识别文本包括的字符以及标点符号,对所述待识别文本进行分句处理,得到所述待识别文本的分句数量;
将所述待识别文本与第一诗词词条进行匹配,得到与所述第一诗词词条的匹配结果,所述第一诗词词条为与所述待识别文本的分句数量对应的诗词词条;
判断是否存在匹配结果符合预设条件的第一诗词词条;
如果存在匹配结果符合预设条件的第一诗词词条,确定所述待识别文本能够匹配得到目标诗词词条,且所述目标诗词词条为所述匹配结果符合预设条件的第一诗词词条;
如果不存在匹配结果符合预设条件的第一诗词词条,确定所述待识别文本不能匹配得到目标诗词词条。
一种文本查询装置,所述装置应用于词典笔,所述装置包括:
待识别文本获取单元,用于响应于利用所述词典笔对待识别文本的扫描操作,获取所述待识别文本;
目标诗词词条匹配单元,用于当所述待识别文本为中文文本时,判断所述待识别文本是否能够匹配得到目标诗词词条;
目标诗词词条显示单元,用于如果所述待识别文本能够匹配得到目标诗词词条,在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本;
目标成语词条匹配单元,用于如果所述待识别文本不能匹配得到目标诗词词条,判断所述待识别文本是否能够匹配得到目标成语词条;
目标成语词条显示单元,用于如果所述待识别文本能够匹配得到目标成语词条,在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本;
目标词语词条匹配单元,用于如果所述待识别文本不能匹配得到目标成语词条,判断所述待识别文本是否能够匹配得到目标词语词条;
目标词语词条显示单元,用于如果所述待识别文本能够匹配得到目标词语词条,在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本;
汉字显示单元,用于如果所述待识别文本不能匹配得到目标词语词条,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本包括的各个汉字的解释文本。
在一种可能的实现方式中,所述装置还包括:
预设阈值判断单元,用于判断所述待识别文本包括的字符数是否大于预设阈值;
翻译文本显示单元,用于如果所述待识别文本包括的字符数大于预设阈值,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本对应的翻译文本;
第一触发单元,用于如果所述待识别文本包括的字符数不大于预设阈值,触发判断所述待识别文本是否能够匹配得到目标词语词条。
在一种可能的实现方式中,所述装置还包括:
目标专有词汇词条匹配单元,用于判断所述待识别文本是否能够匹配得到目标专有词汇词条;
目标专有词汇词条显示单元,用于如果所述待识别文本能够匹配得到目标专有词汇词条,在所述词典笔的显示屏上显示所述目标专有词汇词条以及所述目标专有词汇词条的解释文本;
第二触发单元,用于如果所述待识别文本不能匹配得到目标专有词汇词条,触发判断所述待识别文本是否能够匹配得到目标词语词条。
在一种可能的实现方式中,所述装置还包括:
目标诗词词条切分单元、目标成语词条切分单元和目标词语词条切分单元;其中,
所述目标诗词词条切分单元,包括:
目标诗词词条切分子单元,用于当在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本时,将所述目标诗词词条切分为至少一个第一文本单元,每个所述第一文本单元包括成语、词语或汉字;
第一文本单元确定子单元,用于响应于对所述目标诗词词条的第一触发操作,确定所述第一触发操作对应的第一文本单元;获取所述第一触发操作对应的第一文本单元的解释文本;
第一文本单元显示子单元,用于在所述词典笔的显示屏上显示所述第一触发操作对应的第一文本单元的解释文本;
所述目标成语词条切分单元,包括:
目标成语词条切分子单元,用于当在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本时,将所述目标成语词条切分为至少一个第二文本单元,每个所述第二文本单元包括词语或汉字;
第二文本单元确定子单元,用于响应于对所述目标成语词条的第二触发操作,确定所述第二触发操作对应的第二文本单元;
第二文本单元显示子单元,用于获取所述第二触发操作对应的第二文本单元的解释文本;在所述词典笔的显示屏上显示所述第二触发操作对应的第二文本单元的解释文本;
所述目标词语词条切分单元,包括:
目标词语词条切分子单元,用于当在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本时,将所述目标词语词条切分为至少一个第三文本单元,每个所述第三文本单元包括汉字;
第三文本单元确定子单元,用于响应于对所述目标词语词条的第三触发操作,确定所述第三触发操作对应的第三文本单元;
第三文本单元显示子单元,用于获取所述第三触发操作对应的所述第三文本单元的解释文本;在所述词典笔的显示屏上显示所述第三触发操作对应的第三文本单元的解释文本。
在一种可能的实现方式中,所述目标诗词词条切分子单元,具体用于如果所述目标诗词词条包括成语,将所述目标诗词词条包括的成语切分为第一文本单元;如果所述目标诗词词条中除成语之外的部分包括词语,将所述目标诗词词条包括的词语切分为第一文本单元;将所述目标诗词词条中除成语、词语之外的每个汉字切分为第一文本单元;
所述目标成语词条切分子单元,具体用于如果所述目标成语词条包括词语,将所述目标成语词条包括的词语切分为第二文本单元;将所述目标成语词条中除词语之外的每个汉字切分为第二文本单元;
所述目标词语词条切分子单元,具体用于将所述目标词语词条中每个汉字切分为第三文本单元。
在一种可能的实现方式中,所述装置还包括:
字符数获取单元,用于当所述待识别文本包括非中文文本以及中文文本时,获取所述待识别文本包括的中文字符数以及非中文字符数;
第一目标语种翻译文本显示单元,用于如果所述中文字符数大于非中文字符数,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
第一中文翻译文本显示单元,用于如果所述中文字符数不大于非中文字符数,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
在一种可能的实现方式中,所述装置还包括:
翻译需求确定单元,用于在获取所述待识别文本之后,根据用户的配置数据确定是否对所述待识别文本进行翻译;
第二目标语种翻译文本显示单元,用于当确定对所述待识别文本进行翻译,且当所述待识别文本为中文文本时,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
第二中文翻译文本显示单元,用于当确定对所述待识别文本进行翻译,且当所述待识别文本为非中文文本时,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
在一种可能的实现方式中,所述目标诗词词条匹配单元,包括:
分句数量确定子单元,用于根据所述待识别文本包括的字符以及标点符号,对所述待识别文本进行分句处理,得到所述待识别文本的分句数量;
匹配结果确定子单元,用于将所述待识别文本与第一诗词词条进行匹配,得到与所述第一诗词词条的匹配结果,所述第一诗词词条为与所述待识别文本的分句数量对应的诗词词条;
判断子单元,用于判断是否存在匹配结果符合预设条件的第一诗词词条;
目标诗词词条确定子单元,用于如果存在匹配结果符合预设条件的第一诗词词条,确定所述待识别文本能够匹配得到目标诗词词条,且所述目标诗词词条为所述匹配结果符合预设条件的第一诗词词条;如果不存在匹配结果符合预设条件的第一诗词词条,确定所述待识别文本不能匹配得到目标诗词词条。
一种用于文本查询的装置,所述装置为词典笔,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
响应于利用所述词典笔对待识别文本的扫描操作,获取所述待识别文本;
当所述待识别文本为中文文本时,判断所述待识别文本是否能够匹配得到目标诗词词条;如果所述待识别文本能够匹配得到目标诗词词条,在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本;
如果所述待识别文本不能匹配得到目标诗词词条,判断所述待识别文本是否能够匹配得到目标成语词条;如果所述待识别文本能够匹配得到目标成语词条,在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本;
如果所述待识别文本不能匹配得到目标成语词条,判断所述待识别文本是否能够匹配得到目标词语词条;如果所述待识别文本能够匹配得到目标词语词条,在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本;
如果所述待识别文本不能匹配得到目标词语词条,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本包括的各个汉字的解释文本。
一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的文本查询方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的应用于词典笔的文本查询方法,响应于利用词典笔对待识别文本的扫描操作,获取待识别文本;当待识别文本为中文文本时,判断待识别文本是否匹配得到目标诗词词条,如果能,显示目标诗词词条以及目标诗词词条的解释文本;如果不能匹配,判断是否可以匹配到目标成语词条;如果能,显示目标成语词条以及目标成语词条的解释文本;如果不能匹配,判断是否可以匹配到目标词语词条;如果能,显示目标词语词条以及目标词语词条的解释文本;如果不能匹配,显示待识别文本以及待识别文本包括的各个汉字的解释文本。本申请实施例通过对待识别文本按照诗词、成语、词语和汉字的查询顺序进行查询,使得待识别文本的查询顺序较为清晰。按照一定的查询顺序进行查询,可以确保待识别文本依次进行不同的文本种类的查询,使得得到的待识别文本的查询结果不会存在遗漏或者是重复的情况,得到的查询结果较为准确,可信度较高。
附图说明
图1为本申请实施例提供的文本查询方法的示例性应用场景的示意图;
图2为本申请实施例提供的一种应用于词典笔的文本查询方法流程图;
图3为本申请实施例提供的另一种应用于词典笔的文本查询方法流程图;
图4为本申请实施例提供的另一种应用于词典笔的文本查询方法流程图;
图5为本申请实施例提供的另一种应用于词典笔的文本查询方法流程图;
图6为本申请实施例提供的一种文本查询装置的结构示意图;
图7为本申请实施例提供的客户端的结构示意图;
图8为本申请实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
发明人对传统的文本查询进行研究后发现,现有的词典笔对于中文文本进行查询时,查询逻辑较为混乱。对于相同的中文文本,由于每次进行查询时的查询逻辑不固定,通过不同的查询逻辑得到的查询结果不一致。这导致对中文文本进行查询的查询结果可信度较低,不能满足用户的查询需要。
基于此,本申请实施例提供了一种文本查询方法,应用于词典笔,该方法包括:响应于利用词典笔对待识别文本的扫描操作,获取待识别文本;当待识别文本为中文文本时,判断待识别文本是否能够匹配得到目标诗词词条;如果能够匹配得到目标诗词词条,在词典笔的显示屏上显示目标诗词词条以及目标诗词词条的解释文本;如果不能匹配,判断待识别文本是否能够匹配得到目标成语词条;如果能够匹配得到目标成语词条,显示目标成语词条以及目标成语词条的解释文本;如果不能匹配,判断待识别文本是否能够匹配得到目标词语词条;如果能够匹配得到目标词语词条,显示目标词语词条以及目标词语词条的解释文本;如果不能匹配,显示待识别文本以及待识别文本包括的各个汉字的解释文本。通过按照诗词、成语、词语和汉字的查询顺序进行查询,可以确保待识别文本依次进行不同的文本种类的查询,使得得到的待识别文本的查询结果不会存在遗漏或者是重复的情况,得到的查询结果较为准确,可信度较高。
为了便于理解本申请实施例提供的文本查询方法,下面先结合图1对本申请实施例提供的文本查询方法的应用场景进行说明。其中,图1为本申请实施例提供的文本查询方法的示例性应用场景的框架示意图。其中,本申请实施例提供的文本查询方法可以应用于词典笔101。
实际应用中,词典笔101响应于用户利用词典笔101对待识别文本的扫描操作,获取待识别文本。之后,先判断待识别文本是否可以匹配得到目标诗词词条;若是,对目标诗词词条以及目标诗词词条的解释文本进行显示;若否,再判断待识别文本是否可以匹配得到目标成语词条;若是,对目标成语词条以及目标成语词条的解释文本进行显示;若否,判断待识别文本是否可以匹配得到目标词语词条;若是,对目标词语词条以及目标词语词条的解释文本进行显示;若否,对待识别文本以及待识别文本中的汉字的解释文本进行显示。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。
需要说明的是,本申请实施例中的词典笔101可以根据内置的词条数据库,分别确定待识别文本是否匹配得到目标诗词词条、目标成语词条、目标词语词条,不同的词条对应的解释文本以及汉字的解释文本。词典笔101还可以与服务器进行信息的交互,以便通过服务器确定与待识别文本匹配的词条,获取对应的解释文本。
需要注意的是,词典笔101可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的词典笔。本申请的实施方式在此方面不受任何限制。还需要注意的是,本申请实施例中服务器可以是现有的、正在研发的或将来研发的、能够与词典笔101进行信息交互的设备的一个示例。本申请的实施方式在此方面不受任何限制。
为便于理解本申请实施例提供的技术方案,下面将结合附图对本申请实施例提供的文本查询方法进行说明。
参见图2,该图为本申请实施例提供的一种应用于词典笔的文本查询方法流程图。如图2所示,该方法可以包括步骤S201-S204:
S201:响应于利用词典笔对待识别文本的扫描操作,获取待识别文本。
用户在进行文本的阅读时,可能会遇到需要进行查询的待识别文本。此时,用户可以利用词典笔,通过使用词典笔的扫描操作,对待识别文本进行扫描,进而通过词典笔得到查询结果。
需要说明的是,本申请实施例不限定待识别文本的具体种类,待识别文本可以为包含有中文文本的,需要通过词典笔进行查询的文本,可以为句子、诗词、成语、词语或者是字符等。
词典笔响应于用户利用词典笔对待识别文本的扫描操作,获取用户扫描的待识别文本,对待识别文本进行查询。例如,用户在阅读时,可能对于“万家灯火”不太理解,可以利用词典笔对“万家灯火”这四个字符进行扫描,词典笔响应于对待识别文本的扫描操作,获取用户扫描的“万家灯火”的待识别文本。
本申请实施例中不限定词典笔通过扫描操作获取待识别文本的方法,在一种可能的实现方式中,可以为通过光学字符识别技术以及帧拼接技术,对待识别文本进行扫描以及获取。
S202:当待识别文本为中文文本时,判断待识别文本是否能够匹配得到目标诗词词条。
可以理解的是,属于不同语种的待识别文本的查询逻辑不同。在获取到待识别文本后,对待识别文本进行语种检测。若待识别文本为中文文本,按照中文文本的查询逻辑对待识别文本进行查询。
在本申请实施例中,可以根据中文文本的文本种类确定对中文文本的查词逻辑。可以理解的是,不同文本种类的中文文本具有的字符的数量不同,相同的中文文本进行不同文本种类的划分,得到的中文文本的解释不同。文本种类可以为诗词、成语、专有词汇、词语、汉字等。以“北京大学”为例,将其进行专有词汇的划分,得到“北京大学”,对应的解释是一座特定的大学的名称;将其进行词语的划分,可以得到“北京”和“大学”两个词语,分别表示地名和高等教育机构;将其进行汉字的划分,可以得到“北”、“京”、“大”、“学”四个分别具有对应解释的汉字。
用户在进行待识别文本的查询时一般会先希望得到包含字符数量较多的中文文本的文本种类的解释。基于此,在本申请实施例中,根据文本种类中字符数量由大到小的顺序确定查询逻辑,具体的查询逻辑可以为:依照诗词、成语、词语、汉字的顺序进行查询。
当确定待识别文本为中文文本时,先判断待识别文本是否为诗词,可以将待识别文本与诗词词条进行匹配,判断待识别文本是否能够匹配得到目标诗词词条。其中,诗词词条可以包括诗句词条、诗词题目词条以及诗词作者词条中的一种或者多种。其中,诗句词条为由诗句组成的词条,诗词题目词条为由诗词的题目组成的词条,诗词作者词条为由作者姓名或者是作者的别名、雅称组成的词条。需要说明的是,为提高针对诗词的文本查询的准确性,以及便于用户通过扫描任意数量的诗句均可以得到对应的查询结果,诗词词条中的诗句词条可以是由诗词中任意数量的分句按序组合得到的。其中,分句可以是以标点符号进行划分得到的句子。
目标诗词词条是指与待识别文本匹配的诗词词条,目标诗词词条可以表示待识别文本对应的诗词。由于诗词的复杂度较高,具体可以设置预设条件确定待识别文本匹配的目标诗词词条。本申请实施例提供了S202的一种具体的实施方式,请参见下文。
在将待识别文本与诗词词条进行匹配之后,若待识别文本能够匹配得到目标诗词词条,执行S203。如果待识别文本不能匹配得到目标诗词词条,执行S204。
以上述用户查询“万家灯火”为例,将获取到的属于中文文本的“万家灯火”进行与诗词词条的匹配,判断“万家灯火”是否能够匹配得到目标诗词词条。由于“万家灯火”不能匹配得到目标诗词词条,确定“万家灯火”不是诗句,执行S204。
S203:在词典笔的显示屏上显示目标诗词词条以及目标诗词词条的解释文本。
如果待识别文本能够匹配得到目标诗词词条,说明待识别文本是诗词,进而根据目标诗词词条获取目标诗词词条的解释文本,可以得到待识别文本的查询结果。目标诗词词条的解释文本是与目标诗词词条对应的,具有目标诗词词条中诗词的解释信息的文本。解释文本中可以包括对于目标诗词词条对应的诗句的解释,目标诗词词条中诗词题目的解释,还可以包括目标诗词词条中诗词的作者简介等目标诗词词条中诗词的基本信息。可以理解的是,若目标诗词词条为诗句词条、诗词题目词条和诗词作者词条中的一种或者多种时,解释文本中具有的内容可以与目标诗词词条的种类相对应。
本申请实施例中不限定获取目标诗词词条的解释文本的方式。在一种可能的实现方式中,目标诗词词条具有预设的对应的解释文本,在确定目标诗词词条之后,可以直接获取到目标诗词词条对应的解释文本。在另一种可能的实现方式中,在确定目标诗词词条之后,可以通过发送搜索请求获取搜索结果,得到目标诗词词条的解释文本。
将确定的目标诗词词条以及获取到的目标诗词词条的解释文本在词典笔的显示屏上进行显示,用户可以通过显示屏上显示的目标诗词词条以及目标诗词词条的解释文本,得到与待识别文本匹配程度较高的诗词词条以及相关的解释文本。
进一步的,由于当用户进行诗句的查询时,还可能希望从查询结果中得到诗句对应的全诗以及全诗的解释。因此,当待识别文本匹配的目标诗词词条为诗句词条时,还可以获取诗词全文和全诗的解释文本,并在显示屏上显示诗词全文以及全诗的解释文本,以便于用户对全诗进行理解和学习。
S204:判断待识别文本是否能够匹配得到目标成语词条。
如果待识别文本不能匹配得到目标诗词词条,说明待识别文本不是诗词,进而对待识别文本进行是否是成语的查询,判断待识别文本是否能够匹配得到目标成语词条。
需要说明的是,目标成语词条是与待识别文本相匹配的成语词条。本申请实施例不限定确定待识别文本匹配的目标成语词条的方法,在一种可能的实现方式中,可以具有预设的成语词条,判断待识别文本是否包括预设的成语词条,如果包括预设的成语词条则具有与待识别文本匹配的目标成语词条,且待识别文本所包括的成语词条为目标成语词条;如果不包括预设的成语词条则不具有与待识别文本匹配的目标成语词条。
如果待识别文本能够匹配得到目标成语词条,执行S205;如果待识别文本不能匹配得到目标成语词条,执行S206。
以上述待识别文本为“万家灯火”为例,在进行判断“万家灯火”是否能够匹配得到目标成语词条后,可以得到“万家灯火”具有目标成语词条,执行S205,进行目标成语词条以及目标成语词条的解释文本的显示。
S205:在词典笔的显示屏上显示目标成语词条以及目标成语词条的解释文本。
如果待识别文本能够匹配得到目标成语词条,说明待识别文本是成语,进而根据目标成语词条获取目标成语词条的解释文本。解释文本是与目标成语词条对应的,具有目标成语词条对应的成语的解释信息的文本。
本申请实施例中不限定获取目标成语词条的解释文本的方式。在一种可能的实现方式中,目标成语词条具有预设的对应的解释文本,可以直接获取目标成语词条对应的解释文本。在另一种可能的实现方式中,可以根据目标成语词条进行对应的成语的解释文本的搜索,通过搜索结果获取目标成语词条的解释文本。
S206:判断待识别文本是否能够匹配得到目标词语词条。
如果待识别文本不能匹配得到目标成语词条,则该识别文本不是成语,进一步确定待识别文本是否是词语,判断待识别文本能否匹配得到目标词语词条。
需要说明的是,目标词语词条是与待识别文本相匹配的词语词条,目标词语词条中包含有与待识别文本对应的词语。确定目标词语词条的方法可以与上述S202中确定目标诗词词条以及上述S204中确定目标成语词条的方法相似,在此不再赘述。
如果待识别文本能够匹配得到目标词语词条,执行S207。如果待识别文本不能匹配得到目标词语词条,执行S208。
S207:在词典笔的显示屏上显示目标词语词条以及目标词语词条的解释文本。
如果待识别文本能够匹配得到目标词语词条,则待识别文本包括词语,对应的获取目标词语词条的解释文本。目标词语词条的解释文本可以是对于目标词语词条中包含的词语的含义解释。
本申请实施例中不限定获取目标词语词条的解释文本的方式。可以通过词典笔内置的词语词典获取到目标词语词条对应的解释文本,也可以通过查询搜索获取目标词语词条的解释文本。
在词典笔的显示屏上显示目标词语词条以及目标词语词条的解释文本。
S208:在词典笔的显示屏上显示待识别文本以及待识别文本包括的各个汉字的解释文本。
如果待识别文本不能匹配得到目标词语词条,则待识别文本也不是词语,待识别文本可能不具有整体的含义,例如句子;也可能是单独的汉字。获取待识别文本包括的各个汉字的解释文本,在显示屏上显示待识别文本以及待识别文本包含的各个汉字的解释文本,便于用户通过汉字的解释文本理解待识别文本。
基于上述S201-S208的内容可知,在本申请实施例中,通过对获取到的属于中文文本的待识别文本按照诗词、成语、词语以及汉字的查询逻辑进行对待识别文本的匹配。一方面可以确保按照固定的查询逻辑得到的查询结果较为确定;另一方面可以确保将待识别文本按照查询逻辑依次进行不同文本种类的查询,使得得到的待识别文本的查询结果更加准确,可信度较高。
用户在通过词典笔进行对于待识别文本的查询时,若待识别文本为句子,用户在获取待识别文本对应的解释之外,还可能希望得到待识别文本的翻译文本。基于此,本申请实施例还提供了一种文本查询方法。
需要说明的是,当待识别文本的字数数量较多时,待识别文本可以是句子,词典笔可以对获取到的待识别文本进行翻译,向用户显示对应的翻译文本。但是,当待识别文本具有匹配的目标诗词词条或者是具有匹配的目标成语词条时,由于诗词以及成语一般存在固定的解释文本。所以,目标诗词词条或者是目标成语词条的解释文本中可能包括对应的解释文本,无需再对待识别文本进行翻译。则在确定待识别文本不能匹配得到目标诗词词条以及目标成语词条之后,待识别文本为不是诗词或者是成语的句子,可以对待识别文本进行翻译,显示对应的翻译文本。
如果待识别文本不能匹配得到目标成语词条,在执行上述S206之前,即判断待识别文本是否能够匹配得到目标词语词条之前,还包括以下步骤,参见图3,该图为本申请实施例提供的另一种应用于词典笔的文本查询方法流程图:
S209:判断待识别文本包括的字符数是否大于预设阈值。
可以理解的是,当待识别文本不能匹配得到目标成语词条时,该待识别文本不属于诗词或者是成语,可能为句子或者是词语或者是汉字。对于词语或者是汉字,均有对应的较为固定的解释文本,无需进行针对待识别文本的翻译,所以需要判断待识别文本是否为除词语或者是汉字以外的句子。可以根据词语包含的字符数设置预设阈值,通过判断待识别文本包括的字符数是否大于预设阈值,来判断待识别文本是否为句子。
其中,预设阈值为词语包含的字符数的数值,例如,可以为2或者是3,预设阈值的具体大小可以根据实际需要进行设置。
如果待识别文本包括的字符数大于预设阈值,执行S210;如果待识别文本包括的字符数不大于预设阈值,触发执行S206。
若待识别文本包括的字符数不大于预设阈值,说明待识别文本包括的字符数较少,待识别文本可能为词语或者是汉字,无需对待识别文本进行针对性的翻译,可以触发上述S206,继续进行待识别文本是否能够匹配得到目标词语词的判断。
S210:在词典笔的显示屏上显示待识别文本以及待识别文本对应的翻译文本。
若待识别文本包括的字符数大于预设阈值,说明待识别文本包括的字符数较多,待识别文本可能为句子。进而可以对待识别文本进行翻译,得到待识别文本对应的翻译文本。本申请实施例中不限定获取待识别文本对应的翻译文本的方法,可以为采用预设的翻译方法对待识别文本进行对应语种的翻译,得到对应的翻译文本;也可以通过向其他设备,例如服务器,发送翻译请求获得对应的翻译文本。其中,待识别文本对应的翻译文本可以为目标语种的翻译文本,目标语种可以根据用户选择而设置。
确定翻译文本之后,将待识别文本与待识别文本对应的翻译文本在词典笔的显示屏上进行显示。
在本申请实施例中,在确定待识别文本不具有匹配的目标诗词词条以不具有匹配的目标成语词条之后,通过判断待识别文本包括的字符数是否大于预设阈值,确定待识别文本是否为句子。若大于,将待识别文本以及对应的翻译文本在显示屏上进行显示,以便用户获取待识别文本的翻译文本。若小于,继续执行待识别文本是否具有目标词语词条的判断。由此可以实现当待识别文本为句子时,对待识别文本的翻译,可以满足用户对于待识别文本的翻译的需求。
基于上述内容可知,通过本申请实施例提供的查询逻辑可以实现对待识别文本分别进行属于诗词、成语、词语的查询。在另一种可能的情况下,用户所查询的待识别文本可能是专有词汇,按照诗词、成语、词语的查询逻辑进行查询,不能将专有词汇涵盖在内。
针对待识别文本可能是专有词汇的情况,本申请实施例还提供一种文本查询方法,如果待识别文本不能匹配得到目标成语词条,在执行上述S206之前,即判断待识别文本是否能够匹配得到目标词语词条之前,方法还包括以下步骤,参见图4,图4为本申请实施例提供的另一种应用于词典笔的文本查询方法流程图。
S212:判断待识别文本是否能够匹配得到目标专有词汇词条。
可以理解的是,专有词汇是具有特殊含义的词语,所以在确定待识别文本不是诗词以及成语之后,可以对待识别文本进行是否是专有词汇的查询。
专有词汇可以是包括专有名词、人名、地名、技术用语等具有特殊含义的词汇。对待识别文本进行匹配,判断待识别文本是否能够匹配得到目标专有词汇词条。目标专有词汇词条是与待识别文本匹配的,用于表征待识别文本对应的专有词汇的词条。
如果待识别文本能够匹配得到目标专有词汇词条,执行S213;如果待识别文本不能匹配得到目标专有词汇词条,触发执行S206。
如果待识别文本不能匹配到目标专有词汇词条,则该待识别文本不是专有词汇,触发上述S206,继续进行待识别文本是否能够匹配得到目标词语词条的判断。
S213:在词典笔的显示屏上显示目标专有词汇词条以及目标专有词汇词条的解释文本。
如果待识别文本能够匹配得到目标专有词汇词条,则该待识别文本是专有词汇,且目标专有词汇词条中具有待识别文本对应的专有词汇。利用目标专有词汇词条可以得到目标专有词汇词条的解释文本,用于对待识别文本进行解释。
在词典笔的显示屏上进行目标专有词汇词条以及目标专有词汇词条的解释文本的显示,便于用户获取待识别文本匹配的目标专有词汇词条以及对应的解释文本。
在本申请实施例中,通过在判断待识别文本是否能够匹配得到目标词语词条之前,增加对于待识别文本是否能够匹配得到目标专有词汇词条的判断。如此可以实现对于待识别文本是专有词汇时的查询,使得对于待识别文本的查询结果更为准确。
为了可以实现对于待识别文本的翻译以及对专有词汇的查询,在另一种可能的实现方式中,如果待识别文本不能匹配得到目标成语词条,在判断待识别文本是否能够匹配得到目标词语词条之前,可以执行上述S209-S210,在S209的判断结果为如果待识别文本包括的字符数不大于预设阈值,触发执行S212-S213,在S212的判断结果为如果待识别文本不能匹配得到目标专有词汇词条,触发执行S206。由此便可以实现对待识别文本的翻译以及专有词汇的查询,可以实现较为丰富的文本查询的功能。
在上述将目标诗词词条、目标成语词条、目标词语词条以及对应的解释文本在显示屏上进行显示之后,用户可能对目标诗词词条、目标成语词条或者目标词语词条中包含的成语、词语和汉字存在疑问,需要进一步查询。
基于上述用户进一步查询的需要,本申请实施例还提供了一种文本查询方法。基于上述实施例,还包括以下步骤:
A1:当在词典笔的显示屏上显示目标诗词词条以及目标诗词词条的解释文本时,将目标诗词词条切分为至少一个第一文本单元,每个第一文本单元包括成语、词语或汉字。
在显示屏上进行目标诗词词条以及目标诗词词条的解释文本的显示时,为了便于用户进一步对目标诗词词条中包含的成语、词语以及汉字进行查询,将目标诗词词条进行切分,切分为至少一个第一文本单元。可以理解的是,目标诗词词条中可能包括有成语、词语以及汉字,对应的,第一文本单元包括成语、词语或汉字。
考虑到用户一般会先关注成语或者是词语的含义,再关注单个汉字的含义。在进行目标诗词词条的切分时,可以按照成语、词语和汉字的顺序进行切分。
将目标诗词词条切分为至少一个第一文本单元,具体可以包括:
如果目标诗词词条包括成语,将目标诗词词条包括的成语切分为第一文本单元;如果目标诗词词条中除成语之外的部分包括词语,将目标诗词词条包括的词语切分为第一文本单元;将目标诗词词条中除成语、词语之外的每个汉字切分为第一文本单元。
例如,当目标诗词词条为“草长莺飞二月天”时,可以先将属于成语的“草长莺飞”进行切分,将剩余的“二月天”中属于词语的“二月”再进行切分,最后将剩余的“天”按汉字进行切分。最终得到的第一文本单元包括:“草长莺飞”、“二月”和“天”。
通过按照成语、词语和汉字的顺序进行第一文本单元的切分,可以更好的符合用户查询的习惯,便于用户对目标诗词词条中包含的成语、词汇和汉字进行进一步的查询。
A2:响应于对目标诗词词条的第一触发操作,确定第一触发操作对应的第一文本单元。
用户在进行文本单元的查询时,可以通过词典笔的显示屏直接对目标诗词词条进行第一触发操作。词典笔响应于对目标诗词词条的第一触发操作,确定第一触发操作对应的第一文本单元。本申请实施例中不限定确定第一触发操作对应的第一文本单元的方法。例如,可以为通过显示屏中的感应装置确定用户的触发位置,将包含触发位置的显示范围所对应的第一文本单元,确定为第一触发操作对应的第一文本单元。在确定第一触发操作对应的第一文本单元后,获取第一触发操作对应的第一文本单元的解释文本。第一文本单元的解释文本可以是预先根据目标诗词词条中包含的第一文本单元设置的,也可以是在确定第一触发操作对应的第一文本单元之后通过搜索得到的。
A3:获取第一触发操作对应的第一文本单元的解释文本;在词典笔的显示屏上显示第一触发操作对应的第一文本单元的解释文本。
在用户进行第一文本单元的第一触发操作之后,在词典笔的显示屏上显示第一触发操作对应的第一文本单元以及第一触发操作对应的第一文本单元的解释文本,以便用户获取第一文本单元的相关解释信息。
进一步的,考虑到用户可能需要对第一文本单元继续进行查询,还可以将第一文本单元继续切分。将属于成语的第一文本单元进行词语以及汉字的切分;将属于词语的第一文本单元进行汉字的切分,并对应地对第一文本单元进行更新。若用户对属于目标诗词词条的第一文本单元进行触发,响应于本次第一触发操作,确定本次第一触发操作对应的第一文本单元,获取对应的解释文本,并对本次第一触发操作对应的第一文本单元和对应的解释文本进行显示。
B1:当在词典笔的显示屏上显示目标成语词条以及目标成语词条的解释文本时,将目标成语词条切分为至少一个第二文本单元,每个第二文本单元包括词语或汉字。
当显示屏上显示目标成语词条以及目标成语词条的解释文本时,为了便于用户进一步对目标成语词条中包含的词语以及汉字进行查询,将目标成语词条进行切分,切分为至少一个第二文本单元。可以理解的是,目标成语词条中可能包括有词语以及汉字,对应的,第二文本单元包括词语或汉字。
将目标成语词条切分为至少一个第二文本单元,具体可以包括:
如果目标成语词条包括词语,将目标成语词条包括的词语切分为第二文本单元;将目标成语词条中除词语之外的每个汉字切分为第二文本单元。
对第二文本单元先进行词语的切分,再进行汉字的切分,可以对第二文本单元按序进行切分,便于用户对第二文本单元中的词语和汉字进行查询。
例如,当目标成语词条为“珠玉在侧”时,对目标成语词条进行切分时,先进行词语的切分,得到的第二文本单元为“珠玉”,对除词语之外的汉字进行切分可以得到“在”和“侧”。最终得到的第二文本单元为“珠玉”、“在”和“侧”。
B2:响应于对目标成语词条的第二触发操作,确定第二触发操作对应的第二文本单元。
需要说明的是,确定第二触发操作对应的第二文本单元与上述A2中确定第一触发操作对应的第一文本单元的方法类似,在此不再赘述。
B3:获取第二触发操作对应的第二文本单元的解释文本;在词典笔的显示屏上显示第二触发操作对应的第二文本单元的解释文本。
需要说明的是,获取第二触发操作对应的第二文本单元的解释文本以及在显示屏上进行第二文本单元和第二文本单元的解释文本显示的方法与上述A3中的内容相似,在此不再赘述。
C1:当在词典笔的显示屏上显示目标词语词条以及目标词语词条的解释文本时,将目标词语词条切分为至少一个第三文本单元,每个第三文本单元包括汉字。
当显示屏上显示目标词语词条以及目标词语词条的解释文本时,将目标成语词条进行切分,切分为至少一个第三文本单元。由于目标词语词条进行切分仅能得到汉字,所以,第三文本单元包括汉字。
将目标词语词条切分为至少一个第三文本单元,具体可以包括:
将目标词语词条中每个汉字切分为第三文本单元。
C2:响应于对目标词语词条的第三触发操作,确定第三触发操作对应的第三文本单元。
确定第三触发操作对应的第三文本单元与上述A2中确定第一触发操作对应的第一文本单元的方法类似,在此不再赘述。
C3:获取第三触发操作对应的第三文本单元的解释文本;在词典笔的显示屏上显示第三触发操作对应的第三文本单元的解释文本。
取第三触发操作对应的第三文本单元的解释文本以及在显示屏上进行第三文本单元和第三文本单元的解释文本显示的方法与上述A3中的内容相似,在此不再赘述。
在本申请实施例中,对于词典笔的显示屏上显示的目标诗词词条、目标成语词条以及目标词语词条进行切分,可以得到对应的第一文本单元、第二文本单元以及第三文本单元,再相应地响应用户的操作,进行对应的文本单元以及解释文本的显示。从而实现了对于文本单元的查询,便于用户根据显示的待识别文本的查询结果进行进一步的查询。
上述对于文本的查询均是基于待识别文本为中文文本,可以理解的是,待识别文本可能并非是中文文本或者是非中文文本,也可能是由非中文文本以及中文文本组合而成的。对于具有非中文文本以及中文文本的待识别文本,通常是需要进行翻译的句子,但是由于在一个待识别文本中出现多个语种,可能会导致翻译语种不确定的问题,进而导致翻译结果不准确的问题。
对于此类情况,本申请实施例还提供了一种文本查询方法,参见图5,图5为本申请实施例提供的另一种应用于词典笔的文本查询方法流程图。
S501:当待识别文本包括非中文文本以及中文文本时,获取待识别文本包括的中文字符数以及非中文字符数。
需要说明的是,当待识别文本中包括非中文文本以及中文文本时,对待识别文本的查询可以是对待识别文本进行翻译。具体的,可以根据非中文文本以及中文文本在待识别文本中所占比例确定待识别文本所要进行翻译的语种。可以通过获取待识别文本包括的中文字符数以及非中文字符数确定中文文本以及非中文文本在待识别文本中所占比例,进而确定所要进行翻译的语种。
S502:如果中文字符数大于非中文字符数,将待识别文本翻译为目标语种翻译文本,在词典笔的显示屏上显示待识别文本以及目标语种翻译文本。
若待识别文本中的中文字符大于非中文字符时,待识别文本中中文字符所占比例较大,将待识别文本翻译为目标语种翻译文本。其中,目标语种可以根据用户的选择设置,例如可以属于该非中文字符对应的语种,也可以为其他语种。本申请实施例中不限定将待识别文本翻译为目标语种翻译文本的方法,在一种可能的实现方式中,可以采用在词典笔中预设的翻译方法对待识别文本进行翻译,得到对应的翻译文本;也可以通过向其他设备,例如服务器,发送翻译请求获得对应的翻译文本。
将待识别文本以及目标语种翻译文本在显示屏上进行显示,以便用户确定词典笔获取到的待识别文本以及对应的目标语种翻译文本。
S503:如果中文字符数不大于非中文字符数,将待识别文本翻译为中文翻译文本,在词典笔的显示屏上显示待识别文本以及中文翻译文本。
如果中文字符数不大于非中文字符数,则该待识别文本中非中文文本所占比例较大,可以将待识别文本翻译为中文,得到中文翻译文本。本申请实施例中不限定将待识别文本翻译为中文翻译文本的方法,在一种可能的实现方式中,可以采用在词典笔中预设的翻译方法对待识别文本进行翻译,得到对应的翻译文本;也可以通过向其他设备,例如服务器,发送翻译请求获得对应的翻译文本。
将待识别文本以及中文翻译文本在显示屏上进行显示。
基于上述S501-S503的内容可知,在本申请实施例中,通过判断待识别文本中的中文字符与非中文字符的大小关系,可以确定待识别文本所要翻译的语种。如此可以对具有中文字符和非中文字符的待识别文本进行对应的语种的翻译,避免在获取到具有中文字符和非中文字符的待识别文本时无法确定翻译语种,导致不能对待识别文本进行正常翻译的问题。
在本申请实施例中,还可以当待识别文本为非中文文本时,将待识别文本翻译为中文翻译文本,在词典笔的显示屏上显示待识别文本以及中文翻译文本。
另外,在实际应用中,用户可能使用词典笔的主要需求是对待识别文本进行翻译,则在一些可能的实现方式中,基于上述实施例,还包括以下步骤:
D1:获取待识别文本之后,根据用户的配置数据确定是否对待识别文本进行翻译。
用户可以预先设置使用需求,从而得到用户的配置数据。在获取待识别文本之后,可以根据用户的配置数据确定用户是否需要对待识别文本进行翻译。本申请实施例不限定用户设置使用需求的方式。例如,可以设置优先显示翻译文本或者优先显示解释文本,当设置优先显示翻译文本代表在获取待识别文本之后,确定需要对待识别文本进行翻译。又例如,可以设置选择优先使用的词典,当用户选择使用非中文词典(如英文词典),且待识别文本为中文文本时,可以确定需要对待识别文本进行翻译;当用户选择使用中文词典,且待识别文本为非中文文本时,也可以确定需要对待识别文本进行翻译。
而当根据用户的配置数据未确定需要对待识别文本进行翻译,则优先显示待识别文本对应的解释本文,执行上述实施例提供的方法。
D2:当确定对待识别文本进行翻译,且当待识别文本为中文文本时,将待识别文本翻译为目标语种翻译文本,在词典笔的显示屏上显示待识别文本以及目标语种翻译文本。
当确定对待识别文本进行翻译,且当待识别文本为中文文本时,代表需要将待识别文本翻译为目标语种翻译文本。其中,目标语种可以根据用户的选择设置。本申请实施例中不限定将待识别文本翻译为目标语种翻译文本的方法,在一种可能的实现方式中,可以采用在词典笔中预设的翻译方法对待识别文本进行翻译,得到对应的翻译文本;也可以通过向其他设备,例如服务器,发送翻译请求获得对应的翻译文本。
将待识别文本以及目标语种翻译文本在显示屏上进行显示,以便用户确定词典笔获取到的待识别文本以及对应的目标语种翻译文本。
D3:当确定对待识别文本进行翻译,且当待识别文本为非中文文本时,将待识别文本翻译为中文翻译文本,在词典笔的显示屏上显示待识别文本以及中文翻译文本。
当确定对待识别文本进行翻译,且当待识别文本为非中文文本时,代表需要将待识别文本翻译为中文翻译文本。本申请实施例中不限定将待识别文本翻译为中文翻译文本的方法,在一种可能的实现方式中,可以采用在词典笔中预设的翻译方法对待识别文本进行翻译,得到对应的翻译文本;也可以通过向其他设备,例如服务器,发送翻译请求获得对应的翻译文本。然后将待识别文本以及中文翻译文本在显示屏上进行显示。
在本申请实施例中,可以根据用户配置对待识别文本进行翻译,以及时获得待识别文本的翻译文本。
基于上述内容,在本申请实施例一种可能的实现方式中,还提供了一种S202的实施方式,包括以下五个步骤:
E1:根据待识别文本包括的字符以及标点符号,对待识别文本进行分句处理,得到待识别文本的分句数量。
可以理解的是,诗词词条是由不同数量的分句组成的,在将待识别文本与诗词词条进行匹配之前,可以先对待识别文本进行分句处理,得到待识别文本的分句数量。根据待识别文本的分句数量进行与诗词词条的匹配,可以缩小进行匹配的诗词词条的数量,加快待识别文本与诗词词条的匹配速度。
在本申请实施例中,可以根据待识别文本中的字符和标点符号对待识别文本进行分句的划分。具体的,可以利用待识别文本中的标点符号进行字符的划分,将划分后的连续的字符作为一个分句。
需要说明的是,在一些情况下,待识别文本中不具有标点符号,例如当待识别文本为诗词中不带标点符号的单句、成语或者词语时,此时可以将待识别文本的分句数量确定为一。
E2:将待识别文本与第一诗词词条进行匹配,得到与第一诗词词条的匹配结果,第一诗词词条为与待识别文本的分句数量对应的诗词词条。
根据待识别文本的分句数量确定第一诗词词条,缩小待识别文本进行匹配的范围。第一诗词词条为分句数量与待识别文本的分句数量相对应的诗词词条。其中,第一诗词词条的分句数量可以与待识别文本的分句数量相同。
将待识别文本与第一诗词词条进行匹配,可以得到匹配结果。匹配结果可以表示第一诗词词条与待识别文本的匹配程度。匹配结果可以根据待识别文本和第一诗词词条中字符的顺序以及相同程度来确定。在一种可能的实现方式中,匹配结果可以根据待识别文本在第一诗词词条中的相同顺序的字符占比确定。
需要说明的是,本申请实施例中不限定待识别文本与第一诗词词条的匹配方法。一种可能的实现方式中,待识别文本可以与全部的第一诗词词条进行匹配,先得到全部的第一诗词词条对应的第一匹配结果,再执行E3;另一种可能的实现方式中,待识别文本与第一诗词词条进行匹配,得到匹配结果后执行E3,若判断存在目标诗词词条,则不进行待识别文本与其他第一诗词词条的匹配。
E3:判断是否存在匹配结果符合预设条件的第一诗词词条。
可以理解的是,匹配结果可以表示第一诗词词条与待识别文本的匹配程度。通过设置预设条件,判断是否存在匹配结果符合的第一诗词词条。
待识别文本可能具有不同的分句数量,对于分句数量较少的待识别文本,比如诗句的单句、题目或者是作者,待识别文本中包含的信息较少,所确定的目标诗词词条所需的匹配程度较高;对于分句数量较多的待识别文本,待识别文本中包含的信息较多,所确定的目标诗词词条所需的匹配程度可以稍低。具体的,当待识别本文为单句时,预设条件可以是第一匹配结果为完全匹配;当待识别文本为多句时,预设条件可以为第一匹配结果大于第一匹配阈值。第一匹配阈值可以根据实际需要进行设置的,匹配程度较高的数值,例如第一匹配阈值可以为90%。
E4:如果存在匹配结果符合预设条件的第一诗词词条,确定待识别文本能够匹配得到目标诗词词条,且目标诗词词条为匹配结果符合预设条件的第一诗词词条。
通过设置预设条件,可以确定匹配程度较高的第一诗词词条。将匹配结果满足预设条件的第一诗词词条作为目标诗词词条,确定待识别文本是诗词且具有匹配的目标诗词词条后,根据目标诗词词条进行解释文本的获取,并且进行目标诗词词条以及目标诗词词条的解释文本的显示。
E5:如果不存在匹配结果符合预设条件的第一诗词词条,确定待识别文本不能匹配得到目标诗词词条。
如果不存在匹配结果符合预设条件的第一诗词词条,则待识别文本不是诗词,可以确定待识别文本不能匹配到目标诗词词条,进而判断待识别文本是否能够匹配得到目标成语词条。
在本申请实施例中,先通过确定待识别文本的分句数量,确定待识别文本所要进行匹配的第一诗词词条,如此可以缩小所要进行匹配的诗词词条的范围,加快待识别文本与诗词词条的匹配速度。另外,通过设置预设条件,将匹配结果符合预设条件的第一诗词词条作为目标诗词词条。如此便可以将匹配程度较高的第一诗词词条作为目标诗词词条,使得得到的目标诗词词条与待识别文本更加匹配,得到的待识别文本的查询结果更加准确。
基于上述方法实施例提供的文本查询方法,本申请实施例还提供了一种文本查询装置,下面结合附图进行介绍。
参见图6,该图为本申请实施例提供的一种文本查询装置的结构示意图。
本申请实施例提供的文本查询装置,应用于词典笔,包括:
待识别文本获取单元601,用于响应于利用所述词典笔对待识别文本的扫描操作,获取所述待识别文本;
目标诗词词条匹配单元602,用于当所述待识别文本为中文文本时,判断所述待识别文本是否能够匹配得到目标诗词词条;
目标诗词词条显示单元603,用于如果所述待识别文本能够匹配得到目标诗词词条,在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本;
目标成语词条匹配单元604,用于如果所述待识别文本不能匹配得到目标诗词词条,判断所述待识别文本是否能够匹配得到目标成语词条;
目标成语词条显示单元605,用于如果所述待识别文本能够匹配得到目标成语词条,在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本;
目标词语词条匹配单元606,用于如果所述待识别文本不能匹配得到目标成语词条,判断所述待识别文本是否能够匹配得到目标词语词条;
目标词语词条显示单元607,用于如果所述待识别文本能够匹配得到目标词语词条,在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本;
汉字显示单元608,用于如果所述待识别文本不能匹配得到目标词语词条,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本包括的各个汉字的解释文本。
可选的,所述装置还包括:
预设阈值判断单元,用于判断所述待识别文本包括的字符数是否大于预设阈值;
翻译文本显示单元,用于如果所述待识别文本包括的字符数大于预设阈值,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本对应的翻译文本;
第一触发单元,用于如果所述待识别文本包括的字符数不大于预设阈值,触发判断所述待识别文本是否能够匹配得到目标词语词条。
可选的,所述装置还包括:
目标专有词汇词条匹配单元,用于判断所述待识别文本是否能够匹配得到目标专有词汇词条;
目标专有词汇词条显示单元,用于如果所述待识别文本能够匹配得到目标专有词汇词条,在所述词典笔的显示屏上显示所述目标专有词汇词条以及所述目标专有词汇词条的解释文本;
第二触发单元,用于如果所述待识别文本不能匹配得到目标专有词汇词条,触发判断所述待识别文本是否能够匹配得到目标词语词条。
可选的,所述装置还包括:目标诗词词条切分单元、目标成语词条切分单元和目标词语词条切分单元;其中,
所述目标诗词词条切分单元,包括:
目标诗词词条切分子单元,用于当在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本时,将所述目标诗词词条切分为至少一个第一文本单元,每个所述第一文本单元包括成语、词语或汉字;
第一文本单元确定子单元,用于响应于对所述目标诗词词条的第一触发操作,确定所述第一触发操作对应的第一文本单元;获取所述第一触发操作对应的第一文本单元的解释文本;
第一文本单元显示子单元,用于在所述词典笔的显示屏上显示所述第一触发操作对应的第一文本单元的解释文本;
所述目标成语词条切分单元,包括:
目标成语词条切分子单元,用于当在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本时,将所述目标成语词条切分为至少一个第二文本单元,每个所述第二文本单元包括词语或汉字;
第二文本单元确定子单元,用于响应于对所述目标成语词条的第二触发操作,确定所述第二触发操作对应的第二文本单元;
第二文本单元显示子单元,用于获取所述第二触发操作对应的第二文本单元的解释文本;在所述词典笔的显示屏上显示所述第二触发操作对应的第二文本单元的解释文本;
所述目标词语词条切分单元,包括:
目标词语词条切分子单元,用于当在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本时,将所述目标词语词条切分为至少一个第三文本单元,每个所述第三文本单元包括汉字;
第三文本单元确定子单元,用于响应于对所述目标词语词条的第三触发操作,确定所述第三触发操作对应的第三文本单元;
第三文本单元显示子单元,用于获取所述第三触发操作对应的所述第三文本单元的解释文本;在所述词典笔的显示屏上显示所述第三触发操作对应的第三文本单元的解释文本。
可选的,所述目标诗词词条切分子单元,具体用于如果所述目标诗词词条包括成语,将所述目标诗词词条包括的成语切分为第一文本单元;如果所述目标诗词词条中除成语之外的部分包括词语,将所述目标诗词词条包括的词语切分为第一文本单元;将所述目标诗词词条中除成语、词语之外的每个汉字切分为第一文本单元;
所述目标成语词条切分子单元,具体用于如果所述目标成语词条包括词语,将所述目标成语词条包括的词语切分为第二文本单元;将所述目标成语词条中除词语之外的每个汉字切分为第二文本单元;
所述目标词语词条切分子单元,具体用于将所述目标词语词条中每个汉字切分为第三文本单元。
可选的,所述装置还包括:
字符数获取单元,用于当所述待识别文本包括非中文文本以及中文文本时,获取所述待识别文本包括的中文字符数以及非中文字符数;
第一目标语种翻译文本显示单元,用于如果所述中文字符数大于非中文字符数,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
第二中文翻译文本显示单元,用于如果所述中文字符数不大于非中文字符数,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
可选的,所述装置还包括:
翻译需求确定单元,用于在获取所述待识别文本之后,根据用户的配置数据确定是否对所述待识别文本进行翻译;
第二目标语种翻译文本显示单元,用于当确定对所述待识别文本进行翻译,且当所述待识别文本为中文文本时,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
第二中文翻译文本显示单元,用于当确定对所述待识别文本进行翻译,且当所述待识别文本为非中文文本时,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
可选的,所述目标诗词词条匹配单元,包括:
分句数量确定子单元,用于根据所述待识别文本包括的字符以及标点符号,对所述待识别文本进行分句处理,得到所述待识别文本的分句数量;
匹配结果确定子单元,用于将所述待识别文本与第一诗词词条进行匹配,得到与所述第一诗词词条的匹配结果,所述第一诗词词条为与所述待识别文本的分句数量对应的诗词词条;
判断子单元,用于判断是否存在匹配结果符合预设条件的第一诗词词条;
目标诗词词条确定子单元,用于如果存在匹配结果符合预设条件的第一诗词词条,确定所述待识别文本能够匹配得到目标诗词词条,且所述目标诗词词条为所述匹配结果符合预设条件的第一诗词词条;如果不存在匹配结果符合预设条件的第一诗词词条,确定所述待识别文本不能匹配得到目标诗词词条。
图7示出了一种用于文本查询的终端设备1200的框图。例如,终端设备1200可以是词典笔。
参照图7,终端设备1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制终端设备1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理部件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在终端设备1200的操作。这些数据的示例包括用于在终端设备1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1206为终端设备1200的各种组件提供电力。电源组件1206可以包括电源管理系统,一个或多个电源,及其他与为终端设备1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述终端设备1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当终端设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当终端设备1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为终端设备1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为终端设备1200的显示器和小键盘,传感器组件1214还可以检测终端设备1200或终端设备1200一个组件的位置改变,用户与终端设备1200接触的存在或不存在,终端设备1200方位或加速/减速和终端设备1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于终端设备1200和其他设备之间有线或无线方式的通信。终端设备1200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端设备1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
响应于利用所述词典笔对待识别文本的扫描操作,获取所述待识别文本;
当所述待识别文本为中文文本时,判断所述待识别文本是否能够匹配得到目标诗词词条;如果所述待识别文本能够匹配得到目标诗词词条,在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本;
如果所述待识别文本不能匹配得到目标诗词词条,判断所述待识别文本是否能够匹配得到目标成语词条;如果所述待识别文本能够匹配得到目标成语词条,在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本;
如果所述待识别文本不能匹配得到目标成语词条,判断所述待识别文本是否能够匹配得到目标词语词条;如果所述待识别文本能够匹配得到目标词语词条,在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本;
如果所述待识别文本不能匹配得到目标词语词条,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本包括的各个汉字的解释文本。
可选的,如果所述待识别文本不能匹配得到目标成语词条,在判断所述待识别文本是否能够匹配得到目标词语词条之前,所述方法还包括:
判断所述待识别文本包括的字符数是否大于预设阈值;
如果所述待识别文本包括的字符数大于预设阈值,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本对应的翻译文本;
如果所述待识别文本包括的字符数不大于预设阈值,触发判断所述待识别文本是否能够匹配得到目标词语词条。
可选的,如果所述待识别文本不能匹配得到目标成语词条,在判断所述待识别文本是否能够匹配得到目标词语词条之前,所述方法还包括:
判断所述待识别文本是否能够匹配得到目标专有词汇词条;
如果所述待识别文本能够匹配得到目标专有词汇词条,在所述词典笔的显示屏上显示所述目标专有词汇词条以及所述目标专有词汇词条的解释文本;
如果所述待识别文本不能匹配得到目标专有词汇词条,触发判断所述待识别文本是否能够匹配得到目标词语词条。
可选的,所述方法还包括:
当在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本时,将所述目标诗词词条切分为至少一个第一文本单元,每个所述第一文本单元包括成语、词语或汉字;响应于对所述目标诗词词条的第一触发操作,确定所述第一触发操作对应的第一文本单元;获取所述第一触发操作对应的第一文本单元的解释文本;在所述词典笔的显示屏上显示所述第一触发操作对应的第一文本单元的解释文本;
当在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本时,将所述目标成语词条切分为至少一个第二文本单元,每个所述第二文本单元包括词语或汉字;响应于对所述目标成语词条的第二触发操作,确定所述第二触发操作对应的第二文本单元;获取所述第二触发操作对应的第二文本单元的解释文本;在所述词典笔的显示屏上显示所述第二触发操作对应的第二文本单元的解释文本;
当在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本时,将所述目标词语词条切分为至少一个第三文本单元,每个所述第三文本单元包括汉字;响应于对所述目标词语词条的第三触发操作,确定所述第三触发操作对应的第三文本单元;获取所述第三触发操作对应的所述第三文本单元的解释文本;在所述词典笔的显示屏上显示所述第三触发操作对应的第三文本单元的解释文本。
可选的,所述将所述目标诗词词条切分为至少一个第一文本单元,包括:
如果所述目标诗词词条包括成语,将所述目标诗词词条包括的成语切分为第一文本单元;如果所述目标诗词词条中除成语之外的部分包括词语,将所述目标诗词词条包括的词语切分为第一文本单元;将所述目标诗词词条中除成语、词语之外的每个汉字切分为第一文本单元;
所述将所述目标成语词条切分为至少一个第二文本单元,包括:
如果所述目标成语词条包括词语,将所述目标成语词条包括的词语切分为第二文本单元;将所述目标成语词条中除词语之外的每个汉字切分为第二文本单元;
所述将所述目标词语词条切分为至少一个第三文本单元,包括:
将所述目标词语词条中每个汉字切分为第三文本单元。
可选的,所述方法还包括:
当所述待识别文本包括非中文文本以及中文文本时,获取所述待识别文本包括的中文字符数以及非中文字符数;
如果所述中文字符数大于非中文字符数,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
如果所述中文字符数不大于非中文字符数,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
可选的,所述方法还包括:
在获取所述待识别文本之后,根据用户的配置数据确定是否对所述待识别文本进行翻译;
当确定对所述待识别文本进行翻译,且当所述待识别文本为中文文本时,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
当确定对所述待识别文本进行翻译,且当所述待识别文本为非中文文本时,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
可选的,所述判断所述待识别文本是否能够匹配得到目标诗词词条,包括:
根据所述待识别文本包括的字符以及标点符号,对所述待识别文本进行分句处理,得到所述待识别文本的分句数量;
将所述待识别文本与第一诗词词条进行匹配,得到与所述第一诗词词条的匹配结果,所述第一诗词词条为与所述待识别文本的分句数量对应的诗词词条;
判断是否存在匹配结果符合预设条件的第一诗词词条;
如果存在匹配结果符合预设条件的第一诗词词条,确定所述待识别文本能够匹配得到目标诗词词条,且所述目标诗词词条为所述匹配结果符合预设条件的第一诗词词条;
如果不存在匹配结果符合预设条件的第一诗词词条,确定所述待识别文本不能匹配得到目标诗词词条。
图8是本申请实施例中服务器的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1356,一个或一个以上键盘1356,和/或,一个或一个以上操作系统1341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
另外,本申请实施例还提供一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的文本查询方法,该装置可以应用于词典笔。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本查询方法,其特征在于,所述方法应用于词典笔,所述方法包括:
响应于利用所述词典笔对待识别文本的扫描操作,获取所述待识别文本;
当所述待识别文本为中文文本时,按照中文文本的查询逻辑对所述待识别文本进行查询;所述查询逻辑是根据中文文本的文本种类中字符数量由大到小的顺序确定的;所述查询逻辑为按照诗词、成语、词语和汉字的顺序进行查询;所述诗词、成语、词语和汉字是所述待识别文本的不同文本种类;
判断所述待识别文本是否能够匹配得到目标诗词词条;如果所述待识别文本能够匹配得到目标诗词词条,在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本;
如果所述待识别文本不能匹配得到目标诗词词条,判断所述待识别文本是否能够匹配得到目标成语词条;如果所述待识别文本能够匹配得到目标成语词条,在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本;
如果所述待识别文本不能匹配得到目标成语词条,判断所述待识别文本是否能够匹配得到目标词语词条;如果所述待识别文本能够匹配得到目标词语词条,在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本;
如果所述待识别文本不能匹配得到目标词语词条,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本包括的各个汉字的解释文本。
2.根据权利要求1所述的方法,其特征在于,如果所述待识别文本不能匹配得到目标成语词条,在判断所述待识别文本是否能够匹配得到目标词语词条之前,所述方法还包括:
判断所述待识别文本包括的字符数是否大于预设阈值;
如果所述待识别文本包括的字符数大于预设阈值,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本对应的翻译文本;
如果所述待识别文本包括的字符数不大于预设阈值,触发判断所述待识别文本是否能够匹配得到目标词语词条。
3.根据权利要求1或2所述的方法,其特征在于,如果所述待识别文本不能匹配得到目标成语词条,在判断所述待识别文本是否能够匹配得到目标词语词条之前,所述方法还包括:
判断所述待识别文本是否能够匹配得到目标专有词汇词条;
如果所述待识别文本能够匹配得到目标专有词汇词条,在所述词典笔的显示屏上显示所述目标专有词汇词条以及所述目标专有词汇词条的解释文本;
如果所述待识别文本不能匹配得到目标专有词汇词条,触发判断所述待识别文本是否能够匹配得到目标词语词条。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本时,将所述目标诗词词条切分为至少一个第一文本单元,每个所述第一文本单元包括成语、词语或汉字;响应于对所述目标诗词词条的第一触发操作,确定所述第一触发操作对应的第一文本单元;获取所述第一触发操作对应的第一文本单元的解释文本;在所述词典笔的显示屏上显示所述第一触发操作对应的第一文本单元的解释文本;
当在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本时,将所述目标成语词条切分为至少一个第二文本单元,每个所述第二文本单元包括词语或汉字;响应于对所述目标成语词条的第二触发操作,确定所述第二触发操作对应的第二文本单元;获取所述第二触发操作对应的第二文本单元的解释文本;在所述词典笔的显示屏上显示所述第二触发操作对应的第二文本单元的解释文本;
当在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本时,将所述目标词语词条切分为至少一个第三文本单元,每个所述第三文本单元包括汉字;响应于对所述目标词语词条的第三触发操作,确定所述第三触发操作对应的第三文本单元;获取所述第三触发操作对应的所述第三文本单元的解释文本;在所述词典笔的显示屏上显示所述第三触发操作对应的第三文本单元的解释文本。
5.根据权利要求4所述的方法,其特征在于,
所述将所述目标诗词词条切分为至少一个第一文本单元,包括:
如果所述目标诗词词条包括成语,将所述目标诗词词条包括的成语切分为第一文本单元;如果所述目标诗词词条中除成语之外的部分包括词语,将所述目标诗词词条包括的词语切分为第一文本单元;将所述目标诗词词条中除成语、词语之外的每个汉字切分为第一文本单元;
所述将所述目标成语词条切分为至少一个第二文本单元,包括:
如果所述目标成语词条包括词语,将所述目标成语词条包括的词语切分为第二文本单元;将所述目标成语词条中除词语之外的每个汉字切分为第二文本单元;
所述将所述目标词语词条切分为至少一个第三文本单元,包括:
将所述目标词语词条中每个汉字切分为第三文本单元。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待识别文本包括非中文文本以及中文文本时,获取所述待识别文本包括的中文字符数以及非中文字符数;
如果所述中文字符数大于非中文字符数,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
如果所述中文字符数不大于非中文字符数,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在获取所述待识别文本之后,根据用户的配置数据确定是否对所述待识别文本进行翻译;
当确定对所述待识别文本进行翻译,且当所述待识别文本为中文文本时,将所述待识别文本翻译为目标语种翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述目标语种翻译文本;
当确定对所述待识别文本进行翻译,且当所述待识别文本为非中文文本时,将所述待识别文本翻译为中文翻译文本,在所述词典笔的显示屏上显示所述待识别文本以及所述中文翻译文本。
8.一种文本查询装置,其特征在于,所述装置应用于词典笔,所述装置包括:
待识别文本获取单元,用于响应于利用所述词典笔对待识别文本的扫描操作,获取所述待识别文本;当所述待识别文本为中文文本时,所述装置用于按照中文文本的查询逻辑对所述待识别文本进行查询;所述查询逻辑是根据中文文本的文本种类中字符数量由大到小的顺序确定的;所述查询逻辑为按照诗词、成语、词语和汉字的顺序进行查询;所述诗词、成语、词语和汉字是所述待识别文本的不同文本种类;
目标诗词词条匹配单元,用于当所述待识别文本为中文文本时,判断所述待识别文本是否能够匹配得到目标诗词词条;
目标诗词词条显示单元,用于如果所述待识别文本能够匹配得到目标诗词词条,在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本;
目标成语词条匹配单元,用于如果所述待识别文本不能匹配得到目标诗词词条,判断所述待识别文本是否能够匹配得到目标成语词条;
目标成语词条显示单元,用于如果所述待识别文本能够匹配得到目标成语词条,在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本;
目标词语词条匹配单元,用于如果所述待识别文本不能匹配得到目标成语词条,判断所述待识别文本是否能够匹配得到目标词语词条;
目标词语词条显示单元,用于如果所述待识别文本能够匹配得到目标词语词条,在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本;
汉字显示单元,用于如果所述待识别文本不能匹配得到目标词语词条,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本包括的各个汉字的解释文本。
9.一种用于文本查询的装置,其特征在于,所述装置为词典笔,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
响应于利用所述词典笔对待识别文本的扫描操作,获取所述待识别文本;
当所述待识别文本为中文文本时,按照中文文本的查询逻辑对所述待识别文本进行查询;所述查询逻辑是根据中文文本的文本种类中字符数量由大到小的顺序确定的;所述查询逻辑为按照诗词、成语、词语和汉字的顺序进行查询;所述诗词、成语、词语和汉字是所述待识别文本的不同文本种类;
判断所述待识别文本是否能够匹配得到目标诗词词条;如果所述待识别文本能够匹配得到目标诗词词条,在所述词典笔的显示屏上显示所述目标诗词词条以及所述目标诗词词条的解释文本;
如果所述待识别文本不能匹配得到目标诗词词条,判断所述待识别文本是否能够匹配得到目标成语词条;如果所述待识别文本能够匹配得到目标成语词条,在所述词典笔的显示屏上显示所述目标成语词条以及所述目标成语词条的解释文本;
如果所述待识别文本不能匹配得到目标成语词条,判断所述待识别文本是否能够匹配得到目标词语词条;如果所述待识别文本能够匹配得到目标词语词条,在所述词典笔的显示屏上显示所述目标词语词条以及所述目标词语词条的解释文本;
如果所述待识别文本不能匹配得到目标词语词条,在所述词典笔的显示屏上显示所述待识别文本以及所述待识别文本包括的各个汉字的解释文本。
10.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行权利要求1至7中一个或多个所述的文本查询方法。
CN202010430929.3A 2020-05-20 2020-05-20 一种文本查询方法及装置 Active CN111597325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010430929.3A CN111597325B (zh) 2020-05-20 2020-05-20 一种文本查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010430929.3A CN111597325B (zh) 2020-05-20 2020-05-20 一种文本查询方法及装置

Publications (2)

Publication Number Publication Date
CN111597325A CN111597325A (zh) 2020-08-28
CN111597325B true CN111597325B (zh) 2023-11-10

Family

ID=72185888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010430929.3A Active CN111597325B (zh) 2020-05-20 2020-05-20 一种文本查询方法及装置

Country Status (1)

Country Link
CN (1) CN111597325B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641816A (zh) * 2021-08-20 2021-11-12 安徽淘云科技股份有限公司 一种信息显示方法、装置、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138498A (zh) * 2015-08-03 2015-12-09 小米科技有限责任公司 输出字符信息的方法及装置
CN107168958A (zh) * 2017-05-15 2017-09-15 北京搜狗科技发展有限公司 一种翻译方法及装置
CN107391667A (zh) * 2017-07-20 2017-11-24 维沃移动通信有限公司 一种词条处理方法及移动终端
CN109885836A (zh) * 2019-02-21 2019-06-14 陈包容 一种精准分词的方法
CN110442869A (zh) * 2019-08-01 2019-11-12 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
CN110471599A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 屏幕取词搜索方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053098B2 (en) * 2010-01-14 2015-06-09 Abbyy Development Llc Insertion of translation in displayed text consisting of grammatical variations pertaining to gender, number and tense

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138498A (zh) * 2015-08-03 2015-12-09 小米科技有限责任公司 输出字符信息的方法及装置
CN107168958A (zh) * 2017-05-15 2017-09-15 北京搜狗科技发展有限公司 一种翻译方法及装置
CN107391667A (zh) * 2017-07-20 2017-11-24 维沃移动通信有限公司 一种词条处理方法及移动终端
CN109885836A (zh) * 2019-02-21 2019-06-14 陈包容 一种精准分词的方法
CN110442869A (zh) * 2019-08-01 2019-11-12 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
CN110471599A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 屏幕取词搜索方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111597325A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
EP3173948A1 (en) Method and apparatus for recommendation of reference documents
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN109582768B (zh) 一种文本输入方法和装置
CN111597324B (zh) 一种文本查询方法及装置
CN112631437A (zh) 信息推荐方法、装置及电子设备
CN111860000A (zh) 文本翻译编辑方法、装置、电子设备及存储介质
CN109977390B (zh) 一种生成文本的方法及装置
CN111597325B (zh) 一种文本查询方法及装置
CN113987128A (zh) 相关文章搜索方法、装置、电子设备和存储介质
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
CN111414766B (zh) 一种翻译方法及装置
CN113033163A (zh) 一种数据处理方法、装置和电子设备
CN108614830B (zh) 一种搜索结果的展示方法和装置
KR20210050484A (ko) 정보 처리 방법, 장치 및 저장 매체
CN112329480A (zh) 一种区域调整方法、装置和电子设备
CN108108356B (zh) 一种文字翻译方法、装置及设备
RU2636673C2 (ru) Способ и устройство для сохранения строки
CN112987941B (zh) 生成候选词的方法及装置
CN109976548B (zh) 一种输入方法及输入装置
CN113221030A (zh) 一种推荐方法、装置和介质
CN114610163A (zh) 推荐方法、装置和介质
CN112528129B (zh) 多语种翻译系统语种搜索方法及装置
CN109271094B (zh) 一种文本编辑的方法、装置及设备
CN110858100B (zh) 联想候选词生成方法及装置
CN111625168B (zh) 一种信息展示方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant